NB-SVM strong linear baseline

VFAing

于 2022-10-11 06:31:47 发布

阅读量193

点赞数

文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/VFAing/article/details/126100362

版权

原始论文摘要翻译：

朴素贝叶斯（NB）和支持向量机(svm）经常用作文本分类和情感分析的基准方法。但是它们的表现极大地取决于模型变体，用于任务的特征，数据集。

单词双元组特征的加入在情感任务中一直能增加得分
用于短片段情感任务,NB比SVM做的更好（长文本则相反）
一个简单而新颖的SVM模型变体使用了NB log-count ratios作为特征数据，它在不同任务和数据集上都表现良好。

跟根据这些观察，该模型在情感分析数据集上的表现超过了大多数公布的结果，有时还提供了一个新的最先进的性能水平。

本项目代码

项目说明：

1，读取json文件中的业务备注数据，对其进行中文文本预处理和分词。结果保存为文件”原始标注.xlsx”。
2，新建notebook，读取”原始标注.xlsx”。
总数据量14194，由于存在大量未标记数据，去除未标记数据后获得有效数据7599，占总数据53.5%。70%分为训练数据，训练数据量5319，剩下30%分为测试数据，测试数据量2280。
3，根据“NB-SVM strong linear baseline”文章及相关论文指出，使用朴素贝叶斯对数计数比率变换处理后的训练结果相比朴素贝叶斯和支持向量机在多个任务中都可以获得持续更佳的结果。文章作者使用了论文的变体，支持向量机换为逻辑回归。
4，处理后的评论数据

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
NB-SVM strong linear baseline

NB-SVM强壮的线性基础模型
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。