情感分析技术

最新推荐文章于 2024-01-07 02:05:37 发布

欢桑

最新推荐文章于 2024-01-07 02:05:37 发布

阅读量821

点赞数 4

文章标签： nlp

本文链接：https://blog.csdn.net/qq_43588670/article/details/127951784

版权

工欲善其事必先利其器。先对语料库的进行情感分析，有助于生成更加自然的，多样化的文本。最近读的论文大多数也大都涉及情感分析，所以想要系统学一下，多了解这一方面的技术。下面是我看《网络舆情分析技术》的一些总结（重点在情感分析技术那一章）：
词语情感分析：名词副词和形容词。包括对此的情感极性，情感强度以及上下文模式等进行分析。借助于标注有情感倾向的情感词典。
句子情感分析：主要是判断主观句还是客观句。如果是主观句还需要进一步观察。判断句子情感倾向，同时还需要进行分析与情感倾向相关的一些因素。
文档情感分析：从整体上把握情感倾向。主要的方法为：朴素叶贝斯，最大熵，vsm等。构建语料库，通常6.4分训练集以及测试集。
文本以及情感是通过语言表达，语言随着文化变迁自然演化而成，在互联网时代，网络文本具有自身语言特点和特素的表达方式，我们可以更具网络文本自身的特点、表达习惯和特征，使用语言建模方法来识别文本情感倾向。语言建模方法主要分为：基于语法和语义信息的建模方法、统计语言建模技术（SLM）。
句子情感分析方法：通常分析主观句，主观句带有个人的情感和意向的抒发，反映了一个人观点态度，有一定的感情色彩。而客观句是对事实的陈述，不带有任何感情色彩。在这本书当中，主要介绍的主题句、主观句以及主观关系的识别方法。主题句也分为主观与客观，一般我们只关注主观主题句，主题句一般反映了文本内容的中心思想，在一篇文章中是比较重要的存在。要识别主题句首先要找到文本主题。显示文本主题能直接找到，隐式文本主题必须通过上下文联系才能找到。显式主题有两种识别策略，一种是根据短语特点来识别（但是这种策略存在主题术语覆盖问题）另外一种是根据候选主题的共同特征和上下文指示符来识别常现和非常现的主题术语。不论哪种方法都要先定义主题概念评价真值表，然后通过指标对语义概念进行评估，确定主题概念，然后计算各个候选主题概念的权值，选出文本的主题句。
词汇是最小的语言使用单位，但是却不是最小的语义单位。从语义概念中提取主题概念需要两个评估参数：语义概念重要度（重复的次数）和分布广度（分布度）。完成语义概念选取度计算之后，需要设置一个阈值，当Select©大于阈值时，就可以确定为主题句。
句子重要度计算，句子的位置很重要，通常而言，标题句、含有高频有效词的句子、首句以及尾句、含有提示短语的句子有较高的重要度。
根据以往的实验数据表明，在抽取主题句时，很容易出现主题冗余的问题（作者反复强调）。所以需要进行去重处理。首先需要满足主题的覆盖率，如果抽取的主题句较多则需要舍弃哪些主体相似度较高的句子，确定所抽取的主题句的数量，然后采用余数系数法来计算候选主题句的相似度（文本标题自动生成通常只需要1个主题句；文本自动摘要，通常为原始句子的20%_{30%；文本情感分析通常不低于文本中句子的40%}50%）。
主观关系一般只会在主观句中出现，先找到主观句，才能进而根据主观关系对文本情感进行分析。
情感词库的构建，褒义贬义以及中立。利用现有的词库比如hownet，不标注中立的词语，保证绝大多数常用的情感词都能在情感词典中找到。
主观关系识别方法最大熵模型（在只掌握部分位置分布的部分知识时，应选取符合这些知识且熵值最大的概率分布。）熵的实质就是随机变量的不确定性。最大熵的实质就是在抑制部分知识的前提下，关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断，这是一种不偏不倚的选择，而任何其他选择都会增加一定的约束条件和假设。最大熵模型应用的关键在于如何针对特定的任务为模型选取合适的特征集合。主观句中主观关系可以看做对句子中的评价词进行主观关系标注的过程。
特征空间定义，词：当前评价词的前后各两个词；词性：当前评价词前后各两个词的词性；距离：当前评价词预评价对象之间的距离；语义：当前评价词已寄出前后各两个词的语法语义信息。
在实际应用中，相对于召回率，准确率更加重要（Baseline方法的识别性能比较低）
段落情感分析的对象是经过文本分割后的语义段而不是自然段落。
一个语义段的情感石油句子情感值和句子权重两个方面因素来确定。语义段句子权重计算：基于标题的方法，将标题与句子的相识度来确定改句子的权重，向量间的夹角越小，相识度越高，则把权重设置的越重；基于特征项的方法，衡量句子中每个特征项的重要性，然后根据特征项计算句子的权重。
语义段情感计算方法，可以认为局部情感相互影响产生了文本的全局情感。常用的计算方法有加权求和方法、KNN算法。
根据语言表达规则和习惯差异性，可以通过语言建模方法对文本情感进行分析。统计语言建模是最常用的语言建模技术。
在情感分析建模中，使用unigram和bigram模型。
为了比较对处理文本与模型之间的相似度，通常常用KL距离来度量，KL距离也称为交叉熵。在NLP中，使用交叉熵（交叉熵/困惑度越小，模型的性能越好）来度量两个词在语法和语义上是否同义，或者两篇文章是否相近。
语言建模之后需要从语料中获取模型参数。模型参数是指使用该模型分析语言时所需要的统计数据。语言模型中普遍存在数据稀疏的问题，这时候可以使用数据平滑技术（使用MLE(最大释然估计)来估计不出险或者出现较少的时间的改路不可靠，会出现零概率问题。零概率问题会大大削弱模型的描述能力和处理能力，除此之外，由于存在噪声干扰，使用MLE方法可能与真实的数据产生较大的偏差）低概率被调高，高概率被调低，从而避免零概率问题的出现，同时能够使模型参数概率分布更加均匀，概率的计算更加精确。