目 录
1 绪 论 1
1.1 选题背景及研究意义 1
1.2 国内外研究现状 1
1.2.1 自然语言处理研究现状 1
1.2.2 文本情感分析研究 2
1.3 论文研究思路及方法 3
1.4 论文结构安排 3
2 相关软件及模型 5
2.1 ROSTCM6系统及语义网络 5
2.1.1 ROSTCM6系统 5
2.1.2 语义网络 5
2.2 文本情感值分析 5
2.2.1 情感词典 5
2.2.2 否定词词典 6
2.2.3 程度副词词典 6
2.2.4 停用词词典 6
2.2.5 情感值计算 6
2.3 CLDA主题模型 7
2.3.1 主题模型 7
2.3.2 LDA主题模型 7
2.3.3 CLDA主题模型及使用原因 9
3 影评文本处理 10
3.1 实验环境 10
3.2 数据处理 10
3.2.1 影评文本的获取及修改 10
3.2.2 主要处理部分——分类 12
3.2.3 jieba分词、停用词过滤 13
3.3 数据预处理存在的问题 14
3.3.1 分词及停用词词典 14
3.3.2 情感词典词性 14
4 影评主题分析 15
4.1 CLDA主题分析 15
4.1.1 分类结果检验 15
4.1.2 CLDA主题提取 15
4.2 LDA主题分析 17
4.3 语义网络 17
结 论 19
参考文献 20
致 谢 21
图目录
图2.1 PLSI主题模型 7
图3.1 电影平均评分 12
图3.2 分词效果 14
图4.1 左耳语义网络图 18
图4.2 夏洛特烦恼语义网络图 18
表目录
表3.1 实验环境 10
表3.2 数据集属性 10
表3.3 电影影评 11
表3.4 “疯狂动物城”情感值 13
表4.1 分类结果分词对比表 15
表4.2 “疯狂动物城”部分主题 16
表4.3 “夏洛特烦恼”部分主题 16
表4.4 “左耳”部分主题 16
表4.5 “何以笙箫默”部分主题 17
表4.6 LDA主题分析 17
1.3 论文研究思路及方法
豆瓣电影用户在评论时会对电影进行评分,也可以对其他用户的评论进行点赞,评分和点赞对评论进行情感分类能够给予帮助。本文根据豆瓣影评评分、点赞及文本情感分析结果对影评进行情感极性分类,使用改进的LDA模型对主题进行相关研究分析,主要研究内容如下:
1.豆瓣影评中包含了用户对于电影的评分及点赞数,通过这些数据对评论文本分类,使用情感分析评测文本的情感值提高分类效果。在文本处理方面,使用jieba分词,停用词词典等,剔除价值低的数据。
2.本文主要基于LDA模型对豆瓣影评进行研究分析,针对豆瓣影评具有评分和点赞的性质进行了情感程度分类,再进行LDA模型主题分析的方法。本文通过情感程度分类、LDA主题模型对影评进行更全面的主题提取,称为CLDA(Class LDA)模型方法。该方法适用于在情感主题上存在着两极性或是情感程度有所区分的评论性文档,通过数值分析及情感分析将文档分为两部分,再分别进行LDA主题分析,结合两部分的主题观点,更全面的分析出豆瓣影评的内容,反映影评中流露的用户情感倾向。
1.4 论文结构安排
第一章 绪论,通过对国内大数据及人工智能发展的叙述,引出了本课题的研究意义,并对当前国内外在文本情感分析领域的研究现状进行了简要概况,表明了本文的主要研究内容。
第二章 相关背景知识,介绍了本文使用的文档处理工具ROSTCM6系统,情感权重分析,语义网络以及LDA主题分析的简介、模型及CLDA。
第三章 介绍了本文实验环境,数据的获取和修改,部分情感权重结果,详细介绍了影评文本的处理及分类方案。
第四章 影评主题分析,通过CLDA模型对分类后的文档进行主题分析,与LDA模型及语义网络进行了对比,并对实验结果进行了分析,验证本文方法的有效性。