基于各种机器学习和深度学习的中文微博情感分析

28930c90a52cd001ad7f793a7ade4e60.png

来源:机器学习AI算法工程
本文约600字,建议阅读5分钟
本文中,我们介绍了中文微博情感分析的情况。

中文微博情感分类语料库

  • "情感分析"是我本科的毕业设计,也是我入门并爱上NLP的项目hhh,当时网上相关语料库的质量都太低了,索性就自己写了个爬虫,一边标注一边爬,现在就把它发出来供大家交流。因为是自己的项目,所以标注是相当认真的,还请了朋友帮忙校验,过滤掉了广告/太短/太长/表意不明等语料,语料质量是绝对可以保证的。

  • 带情感标注的微博语料数量: 10000(train.txt)+500(test.txt)

数据格式

  • 文档的每一行代表一条语料。

  • 每条语料的第一个数据为微博对应的mid,是每条微博的唯一标签,可以通过"https://m.weibo.cn/status/" + mid 访问到该条微博的网页(部分微博可能已被博主删除)。

  • 第二个数据为情感标签,0表示负面,1表示正面。

项目说明
  • 训练集10000条语料,测试集500条语料。

  • 使用朴素贝叶斯、SVM、XGBoost、LSTM和Bert,等多种模型搭建并训练二分类模型。

  • 前3个模型都采用端到端的训练方法。

  • LSTM先预训练得到Word2Vec词向量,在训练神经网络。

  • Bert使用的是哈工大的预训练模型,用Bert的[CLS]位输出在一个下游网络上进行finetune。预训练模型需要自行下载。

下载后将文件夹放在./model文件夹下,并将bert_config.json改名为config.json。

实验结果

各种分类器在测试集上的测试结果:

19459846f6bf5bf7249994f106c80a17.png

项目资料:

基于情感词典、k-NN、Bayes、最大熵、SVM的情感分析

https://github.com/chaoming0625/SentimentPolarityAnalysis

风险事件文本分类(达观杯Rank4)

https://github.com/DA-southampton/DaguanFengxian

编辑:王菁
校对:林亦霖
  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值