原始论文摘要翻译:
朴素贝叶斯(NB)和支持向量机(svm)经常用作文本分类和情感分析的基准方法。但是它们的表现极大地取决于模型变体,用于任务的特征,数据集。
- 单词双元组特征的加入在情感任务中一直能增加得分
- 用于短片段情感任务,NB比SVM做的更好(长文本则相反)
- 一个简单而新颖的SVM模型变体使用了NB log-count ratios作为特征数据,它在不同任务和数据集上都表现良好。
跟根据这些观察,该模型在情感分析数据集上的表现超过了大多数公布的结果,有时还提供了一个新的最先进的性能水平。
本项目代码
项目说明:
1,读取json文件中的业务备注数据,对其进行中文文本预处理和分词。结果保存为文件”原始标注.xlsx”。
2,新建notebook,读取”原始标注.xlsx”。
总数据量14194,由于存在大量未标记数据,去除未标记数据后获得有效数据7599,占总数据53.5%。70%分为训练数据,训练数据量5319,剩下30%分为测试数据,测试数据量2280。
3,根据“NB-SVM strong linear baseline”文章及相关论文指出,使用朴素贝叶斯对数计数比率变换处理后的训练结果相比朴素贝叶斯和支持向量机在多个任务中都可以获得持续更佳的结果。文章作者使用了论文的变体,支持向量机换为逻辑回归。
4,处理后的评论数据