基于机器学习的人民日报和微博等与疫情有关话题数据两极情感分析 毕业论文+Python项目源码及数据

!!! 有需要的小伙伴可以通过文章末尾名片咨询我哦!!!

 💕💕作者:小张
💕💕个人简介:混迹在java圈十年有余,擅长Java、微信小程序、Python、Android等,大家有这一块的问题可以一起交流!
💕💕各类成品java系统 。javaweb,ssh,ssm,springboot等等项目框架,源码丰富,欢迎咨询交流。学习资料、程序开发、技术解答、代码讲解、源码部署,需要请看文末联系方式。

目录

1.中文分词 Chinese Word Segmentation

1.1中文分词问题

1.2常用中文分词方法

1.3开源免费的分词软件

2.特征提取 Feature Extraction

3.计算信息量 Calculate information content

4.对每个特征按信息量排序 sorting

5.给训练数据打标签 tagging the training set

6.训练并测试不同的分类模型 training and testing different classification models

6.1不同模型 different models

6.2不同的n-gram选取方式 different n-gram selection modes

6.3是否做特征提取apply feature extraction or not

6.4维度截取 dimension interception

6.5ROC 曲线 ROC-curves

7.分析选择最好的方案 select the optimal model

8.参考文献 references

在成功获取来自微博和人民日宝的数据后,重点就是如何利用这些数据实现情感的极性分析。目前情感  倾向分析的主流方法有两类,其一是基于情感词典,这需要应用到标注好的情感词典,英文语料的各类  词典数量庞大,而现有的中文语料的词典却不是很多,主要有知网整理的情感词典Hownet和台湾大学    整理发布的NTUSD两个情感词典,还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词    典的扩充。在实践过程中我们选取了大连理工大学的情感词汇本体库进行基于词典的情感分析.第二种方 法则是基于机器学习,其需要大量人工标注的语料作为训练集,并通过提取文本特征,构建分类器模型  来实现情感分类。

下图为使用机器学习方法的过程流:

 

相较于固定的情感词典,机器学习方法的优点就在于其精确度更高。首先,词典匹配会由于语义表达的 丰富性而产生很大误差,而机器学习则无需深入到语法层面。其次,词典匹配的方法适用范围更加广     泛,因为词典本身所包含的语料就十分丰富;相较而言,机器学习方法对训练集语料的质量依赖性较     高,如果训练语料针对性不强,则会严重影响到模型的性能,相反优秀的训练语料会使训练所得模型在 特定的预测方向拥有极高的精确度。

Python有很多优秀的适用于情感分类的模块,比如Python自然语言处理包,即Natural Language

Toolkit,简称NLTK,本次实验中,还使用了jieba作为中文文本的分词工具。

更多项目:

另有1000+份项目源码,项目有java(包含springboot,ssm,jsp等),小程序,python,php,net等语言项目。项目均包含完整前后端源码,可正常运行!

!!! 有需要的小伙伴可以点击下方链接咨询我哦!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员小马软件开发定制

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值