!!! 有需要的小伙伴可以通过文章末尾名片咨询我哦!!!
💕💕作者:小张
💕💕个人简介:混迹在java圈十年有余,擅长Java、微信小程序、Python、Android等,大家有这一块的问题可以一起交流!
💕💕各类成品java系统 。javaweb,ssh,ssm,springboot等等项目框架,源码丰富,欢迎咨询交流。学习资料、程序开发、技术解答、代码讲解、源码部署,需要请看文末联系方式。
目录
1.中文分词 Chinese Word Segmentation
3.计算信息量 Calculate information content
5.给训练数据打标签 tagging the training set
6.训练并测试不同的分类模型 training and testing different classification models
6.2不同的n-gram选取方式 different n-gram selection modes
6.3是否做特征提取apply feature extraction or not
6.4维度截取 dimension interception
7.分析选择最好的方案 select the optimal model
在成功获取来自微博和人民日宝的数据后,重点就是如何利用这些数据实现情感的极性分析。目前情感 倾向分析的主流方法有两类,其一是基于情感词典,这需要应用到标注好的情感词典,英文语料的各类 词典数量庞大,而现有的中文语料的词典却不是很多,主要有知网整理的情感词典Hownet和台湾大学 整理发布的NTUSD两个情感词典,还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词 典的扩充。在实践过程中我们选取了大连理工大学的情感词汇本体库进行基于词典的情感分析.第二种方 法则是基于机器学习,其需要大量人工标注的语料作为训练集,并通过提取文本特征,构建分类器模型 来实现情感分类。
下图为使用机器学习方法的过程流:
相较于固定的情感词典,机器学习方法的优点就在于其精确度更高。首先,词典匹配会由于语义表达的 丰富性而产生很大误差,而机器学习则无需深入到语法层面。其次,词典匹配的方法适用范围更加广 泛,因为词典本身所包含的语料就十分丰富;相较而言,机器学习方法对训练集语料的质量依赖性较 高,如果训练语料针对性不强,则会严重影响到模型的性能,相反优秀的训练语料会使训练所得模型在 特定的预测方向拥有极高的精确度。
Python有很多优秀的适用于情感分类的模块,比如Python自然语言处理包,即Natural Language
Toolkit,简称NLTK,本次实验中,还使用了jieba作为中文文本的分词工具。
更多项目:
另有1000+份项目源码,项目有java(包含springboot,ssm,jsp等),小程序,python,php,net等语言项目。项目均包含完整前后端源码,可正常运行!
!!! 有需要的小伙伴可以点击下方链接咨询我哦!!!