目录
前言
课题背景和意义
实现技术思路
一、论坛文本采集方法研究
二、文本情感分析理论
三、论坛文本预处理
四、文本表示及特征抽取
五、情感倾向分类器
实现效果图样例
最后
前言
📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。
🚀对毕设有任何疑问都可以问学长哦!
选题指导: https://blog.csdn.net/qq_37340229/article/details/128243277
大家好,这里是海浪学长毕设专题,本次分享的课题是
🎯基于机器学习的网络舆情情感倾向分析研究
课题背景和意义
互联网是一个广阔的资源共享平台,人们可方便获取信息,个人、企业、政府都可通过微博、论坛、新闻等参与信息的发布与传播,发表自己的意见和观点。网络世界是虚拟的,人们可以毫无顾虑地表明真实想法,特别是对热点事件或社会公共事件,积极参与讨论和质疑,易受他人影响,形成态度一边倒的情况。网络世界是隐蔽的,匿名发表意见往往充满随意性,不需要考虑内容的真实性和影响力。随着网民数量的增多和手机上网的便捷,网络舆情对社会的影响愈发明显。近年来,舆情分析工作是各级党政部门的重点工作,对网络舆情的有效监控和疏导,能够推动社会突发事件良性发展。随着移动终端技术的不断发展,人们可以愈发便捷地通过微博、论坛等载体来表达个人的情绪及观点。用户通过这些载体发布的信息中往往包含着一定程度的情感倾向、 意见倾向特征,通过情感倾向分析技术挖掘这些特征对于舆情分析、舆情监控等有着十分重 要的意义。
实现技术思路
文本情感倾向分析工作主要分为四个阶段
:
1.
数据准备阶段:主要是原有数据的梳理及新数据的采集工作。
2.
情感倾向判断阶段:通过研究常用于情感倾向性判断的机器学习技术,学习并应用相关技术进行情感倾向判断。
3.
结果研判及性能评估阶段:通过计算准确率和召回率判断情感倾向分析的效果,挖掘实现流程、算法设计等的不足并加以改进。
4.
结果展示阶段:结合实际情况,通过图表、曲线等可视化手段,展现情感倾向分析的实际效果及应用场景。

一、论坛文本采集方法研究
论坛文本的采集对于论坛文本内容挖掘工作起着至关重要的作用,研究通过高效实时的数据采集技术完成论坛数据的采集,主要通过以下两种方式:
基于网络爬虫的采集方法
针对论坛编写的网络爬虫脚本
主要包含了以下三种功能:
(
1
)模拟用户登录:根据该论坛的特点,在用户登录过程中,分析其登录协议,模拟用户登陆并获取访问权限。
(2)网页数据爬虫
:登录论坛之后,使用网页采集模块对论坛信息进行抽取,抽取后的提取的 URL
存入
URL
数据库,通过
URL
调度模块把
URL
分配给向网页采集模块,该模块通过 Python
的
Requests
库来完成数据的采集。不断循环,直到
URL
数据库中的所有
URL
均被采集完毕。
(3)网页内容解析:通过解析提取论坛文本数据和待采集
URL。
基于论坛 API 的数据采集办法
目前,大型网站、论坛等均会开放 API 接口,以方便第三方合作伙伴的接入。获得开发者身份后,根据 API 说明文档开发相应脚本,调用接口后通过解析数据流完成论坛信息的采集。

二、文本情感分析理论
情感分析
是指用机器学习的方法解析出文本中情感极性信息,归纳出用户的情绪、态度、倾向等情感意向的过程。
论坛文本情感倾向分析过程
基于机器学习进行情感倾向分析,按照使用技术的不同,主要分为无监督学习和有监督
学习两种,具体实现流程如下:
(
1
) 文本预处理
(2) 谈论主体判断
(3) 用户观点抽取
(4) 观点极性和强度判定
(5) 情感倾向判断

文本情感分析的分类
文本情感倾向分析按照文本粒度的不同,可分为三类:词语级、语句级以及篇章级,按照判断主体的不同,可分为判断情感极性的情感分析和判断用户对某一事物、事件等的主观看法的情感分析。

三、论坛文本预处理
文本清洗
数据清洗
是指在获取文本数据之后,对数据进行重新审查和校验的工作,主要包括: 去除无效无意义信息、删除重复信息、纠正存在的错误、保持数据一致性等,抽取一定的文本发现有以下情况:
(
1
) 存在不具有判断价值的文本。如:长度过短不具有实际意义的文本、一连串无意义字符的无效文本、存在大量重复且无实际意义的灌水文本等。
(2) 港台用户会使用繁体字在论坛中发表评论,论坛文本数据中存在简体文本、繁体文本混杂的情况。不统一转换为简体字,会对后期的文本分词、词性标注等产生较大影响。
(3) 乱码文本。
中文分词
文本分词是自然语言处理的基础,指的是将句子按照一定的规则切分成词序列。针对中文的分词方法主要分为基于字符串匹配、基于理解以及基于统计三种。

(
1
) 基于词典的字符串匹配的分词方法。在对语句进行分词过程中,分词器以正向或者拟向的方式对语句进行逐字扫描,将截取到的词组按照最大匹配或者最小匹配的方式与字典中的词条进行比对,若在字典中存在该词语,则匹配成功,反之,则继续扫描下一个字构成新词组

(2) 基于理解的分词方法。通过学习人对句子的理解方式,总结归纳句法规则,实现对词语的识别。

(3)基于统计的分词方法。从语言学的角度,相邻的两个字同时出现的次数越多,构成词的可能性就越大[45],该方法通过计算字与其相邻字的共现概率反映词语的可信程度。
词性标注
词性标注是指在文本分词的基础上,根据上下文确定每个词的词性并添加标签的过程。
停用词去除
停用词去除是文本预处理的重要步骤,停用词一般出现频率较高但自身却不具有实际意义,对情感倾向分析的结果也无直接影响,
四、文本表示及特征抽取
情感倾向分析的主要任务是从文本中挖掘出非结构化的文本数据,识别出与情感倾向相关的信息并进行判断。
文本表示技术
文本表示技术指从文本中抽取能表示文本特征的信息并形式化展现的过程。目前常用的文本表示技术有以下几种。
(
1
)布尔模型
Boolean Model
该模型采用布尔表达式对文本进行标识,将文本表示为分量为
0
或
1
的向量集合。 布尔表达式:

式中,
t
i 代表文本中第 i 个分词。 文本表示结果:
(2)概率主题模型 Probabilistic Model
该模型由
Belkin
和
Croft
于
1992
年提出。基本思想如下: 已知集合:
式中, n 代表集合中元素的个数。 则待分类文本 D 属于该类别的概率为:

(3)向量空间模型
Vector Space Model VSM
其基本思想是将文本表示为加权的特征向量,主要有以下两个要素: a)特征项(
t
i ):向量空间模型的主要任务是用特征项构建一个向量来表示文本,特征项可以是字、词、词组或是短语等,特征项之间相互独立,没有前后顺序的关系。
T =t 1t2 t3....... 。
b
)特征项的权重(
w
i
)
:
由表示文本的每个特征项
t
i
的权重
w
i
,可将文本表示为一个向量
D= w1 ,w2,w3 式中, i 代表文档集
D
中第
i
个文本。

文本特征抽取技术
特征权重显示了该特征项在文本中的区分能力,因此特征权重越大,表示该特征项对分类越重要。常用的特征权重计算方法有:TF-IDF 算法、布尔权重法、熵权重法、词频权重法等。
(
1
)
TF-IDF
算法

(2)布尔权重

五、情感倾向分类器
情感倾向分析
可以看成一个分类问题,目前效果较好且应用较为广泛的文本分类器主要有朴素贝叶斯、支持向量机等以下几种。这些常用的文本分类器大部分都可以直接应用于文本情感倾向分类。
朴素贝叶斯分类器
假定分类文本
D
,类别集合为 {C1C2,,,,,Cn},在 1
<=
i <=n
的条件下,求条件概率
P (C| D),将
文本条件概率最大值所在类别作为文本的类。式中,基于文本的表示方法,有
DF 向量表示法和 TF 向量表示法两种。
在
DF
向量表示法中,布尔值为文本向量的分量,
0
表示特征项在文本中未出现,反之
1 表示出现,则文本 Doc
属于类别
C
的概率为:

在
TF
向量表示法中,特征项在该文本中出现的频次为文本向量的分量,则则文本
Doc属于类别 C
的概率为:

支持向量机
该算法的基本思想是在向量空间中找到
margin
值最大的决策平面

实现效果图样例
基于
SnowNLP
类库进行情感值计算后会返回一个
0,1
之间的数值,该数值约接近
1
则该
文本为正向样本的概率则越大,反而更可能为负向样本。提供了一批淘宝评价数据,其中正向样本 8979 条,负向样本 9935 条,为验证工具情感判断的准确性,从中提取正面、负面样本各 2000 条用于测试,剩余样本作为训练集用于模型训练。
得出测试结果如表 :
我是海浪学长,创作不易,欢迎点赞、关注、收藏、留言。
毕设帮助,疑难解答,欢迎打扰!
最后