NB-SVM strong linear baseline

原始论文摘要翻译:

朴素贝叶斯(NB)和支持向量机(svm)经常用作文本分类和情感分析的基准方法。但是它们的表现极大地取决于模型变体,用于任务的特征,数据集。

  • 单词双元组特征的加入在情感任务中一直能增加得分
  • 用于短片段情感任务,NB比SVM做的更好(长文本则相反)
  • 一个简单而新颖的SVM模型变体使用了NB log-count ratios作为特征数据,它在不同任务和数据集上都表现良好。

跟根据这些观察,该模型在情感分析数据集上的表现超过了大多数公布的结果,有时还提供了一个新的最先进的性能水平。

本项目代码

评论分类

项目说明:

1,读取json文件中的业务备注数据,对其进行中文文本预处理和分词。结果保存为文件”原始标注.xlsx”。
2,新建notebook,读取”原始标注.xlsx”。
    总数据量14194,由于存在大量未标记数据,去除未标记数据后获得有效数据7599,占总数据53.5%。70%分为训练数据,训练数据量5319,剩下30%分为测试数据,测试数据量2280。
3,根据“NB-SVM strong linear baseline”文章及相关论文指出,使用朴素贝叶斯对数计数比率变换处理后的训练结果相比朴素贝叶斯和支持向量机在多个任务中都可以获得持续更佳的结果。文章作者使用了论文的变体,支持向量机换为逻辑回归。
4,处理后的评论数据

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值