基于机器学习的人民日报和微博等与疫情有关话题数据两极情感分析毕业论文+Python项目源码及数据-CSDN博客

本文链接：https://blog.csdn.net/qq_43368615/article/details/142715439

！！！有需要的小伙伴可以通过文章末尾名片咨询我哦！！！

💕💕作者：小张
💕💕个人简介：混迹在java圈十年有余，擅长Java、微信小程序、Python、Android等，大家有这一块的问题可以一起交流！
💕💕各类成品java系统。javaweb，ssh，ssm，springboot等等项目框架，源码丰富，欢迎咨询交流。学习资料、程序开发、技术解答、代码讲解、源码部署，需要请看文末联系方式。

1.中文分词 Chinese Word Segmentation

1.1中文分词问题

1.2常用中文分词方法

1.3开源免费的分词软件

2.特征提取 Feature Extraction

3.计算信息量 Calculate information content

4.对每个特征按信息量排序 sorting

5.给训练数据打标签 tagging the training set

6.训练并测试不同的分类模型 training and testing diﬀerent classiﬁcation models

6.1不同模型 diﬀerent models

6.2不同的n-gram选取方式 diﬀerent n-gram selection modes

6.3是否做特征提取apply feature extraction or not

6.4维度截取 dimension interception

6.5ROC 曲线 ROC-curves

7.分析选择最好的方案 select the optimal model

8.参考文献 references

在成功获取来自微博和人民日宝的数据后，重点就是如何利用这些数据实现情感的极性分析。目前情感倾向分析的主流方法有两类，其一是基于情感词典，这需要应用到标注好的情感词典，英文语料的各类词典数量庞大，而现有的中文语料的词典却不是很多，主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典，还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。在实践过程中我们选取了大连理工大学的情感词汇本体库进行基于词典的情感分析.第二种方法则是基于机器学习，其需要大量人工标注的语料作为训练集，并通过提取文本特征，构建分类器模型来实现情感分类。

下图为使用机器学习方法的过程流：

相较于固定的情感词典，机器学习方法的优点就在于其精确度更高。首先，词典匹配会由于语义表达的丰富性而产生很大误差，而机器学习则无需深入到语法层面。其次，词典匹配的方法适用范围更加广泛，因为词典本身所包含的语料就十分丰富；相较而言，机器学习方法对训练集语料的质量依赖性较高，如果训练语料针对性不强，则会严重影响到模型的性能，相反优秀的训练语料会使训练所得模型在特定的预测方向拥有极高的精确度。

Python有很多优秀的适用于情感分类的模块，比如Python自然语言处理包，即Natural Language

Toolkit，简称NLTK，本次实验中，还使用了jieba作为中文文本的分词工具。