ccombox获取选择的文本_NLP知识梳理 6. 文本情感分析 Sentiment Analysis-CSDN博客

首先，文本情感分析是情感分析中的一个分支：

情感分析的可能性：

至今仍然有一派观点认为情感动态变化，是难以量化的，不可计算的，且没有研究必要的。但以 R.W Picard 为代表的计算机学家们却认为机器具有情感是可能的，在方法上也是可行的。无论是情感计算的开创者 R.W Picard，还是后来的计算机学家对情感的计算处理，他们的理论是建立在心理学基础之上的。心理学把情感分为快乐、焦虑、悲伤、愤怒和厌恶，其它情感都是由此派生出来的；把情感的表现局限于心理感受强度、表情特征和生理指标。当前建立起来的情感模型主要考虑的也是这五种基本情感（见前面所论述的情感模型），建模方法大都是基于维度论的方法。更深层的哲学问题是，一些人认为把情感计算的理论基础建立在心理学之上是不妥的，而应该把它的理论基础 12 建立在“统一价值论”之上。统一价值论认为任何主观意识都不是无中生有的，也不是孤立存在的，都是对某一客观存在的反映，总会有某一客观存在与之相对应；情感作为一种特殊的主观心理活动，反映了一种特殊的客观存在——人与事物之间的价值关系，情感与价值的关系在本质上就是主观与客观的关系。因此，统一价值论把情感诠释为“人脑对事物的价值关系的一种主观反映”，以数学形式对情感进行精确定义，建立情感和价值观的数学分析模型，实现了情感的合并运算和合成运算，根据价值的不同变化特征对情感进行分类，从而将“情感计算” 转化为“价值计算”。一些人认为把情感计算的理论基础建立在心理学之上是不妥的，而应该把它的理论基础 12 建立在“统一价值论”之上。统一价值论认为任何主观意识都不是无中生有的，也不是孤立存在的，都是对某一客观存在的反映，总会有某一客观存在与之相对应；情感作为一种特殊的主观心理活动，反映了一种特殊的客观存在——人与事物之间的价值关系，情感与价值的关系在本质上就是主观与客观的关系。因此，统一价值论把情感诠释为“人脑对事物的价值关系的一种主观反映”，以数学形式对情感进行精确定义，建立情感和价值观的数学分析模型，实现了情感的合并运算和合成运算，根据价值的不同变化特征对情感进行分类，从而将“情感计算” 转化为“价值计算”。

文本情感计算

文本情感计算的过程可以由 3 部分组成：文本信息采集、情感特征提取和情感信息分类。文本信息采集模块通过文本抓取工具（如网页爬虫工具）获得情感评论文本，并传递到下一个情感特征提取模块，然后对文本中自然语言文本转化成计算机能够识别和处理的形式，并通过情感信息分类模块得到计算结果。文本情感计算侧重研究情感状态与文本信息之间的对应关系，提供人类情感状态的线索。具体地，需要找到计算机能提取出来的特征，并采用能用于情感分类的模型。因此，关于文本情感计算过程的讨论，主要集中在文本情感特征标注（信息采集）、情感特征提取和情感信息分类这三个方面：

文本情感特征标注

情感特征标注是对情感语义特征进行标注，通常是将词或者语义块作为特征项。情感特征标注首先对情感语义特征的属性进行设计，如褒义词、贬义词、加强语气、一般语气、悲伤、高兴等等；然后通过机器自动标注或者人工标注的方法对情感语义特征进行标注，形成情感特征集合。情感词典是典型的情感特征集合，也是情感计算的基础。在大多数研究中，有关情感计算的研究通常是将情感词典直接引入自定义词典中。运用情感词典计算出文本情感值是一种简单迅速的方法，但准确率有待提高。在实际的情感计算中，会因为具体的语言应用环境而有所不同。例如，“轻薄”一词通常认为是否定词，但是在电脑、手机却被视为肯定词汇。同时，文本中常会出现否定前置、双重否定以及文本口语化和表情使用等，这些都将会对文本情感特征的提取和判断产生较大的影响。因此在进行文本情感提取时，需要对文本及其对应的上下文关系、环境关系等进行分析。

情感特征提取

文本包含的情感信息是错综复杂的，在赋予计算机以识别文本情感能力的研究中，从文本信号中抽取特征模式至关重要。在对文本预处理后，初始提取情感语义特征项。特征提取的基本思想是根据得到的文本数据，决定哪些特征能够给出最好的情感辨识。通常算法是对已有的情绪特征词打分，接着以得分高低为序，超过一定阈值的特征组成特征子集。特征词集的质量直接影响最后结果，为了提高计算的准确性，文本的特征提取算法研究将继续受到关注。长远看来，自动生成文本特征技术将进一步提高，特征提取的研究重点也更多地从对词频的特征分析转移到文本结构和情感词上。

情感信息分类

文本情感分类技术中，主要采用两种技术路线：基于规则的方法和基于统计的方法。在 20 世纪 80 年代，基于规则的方法占据主流位置，通过语言学家的语言经验和知识获取句法规则，以此作为文本分类依据。但是，获取规则的过程复杂且成本巨大，也对系统的性能有负面影响，且很难找到有效的途径来提高开发规则的效率。20 世纪 90 年代之后，人们更倾向于使用统计的方法，通过训练样本进行特征选择和参数训练，根据选择的特征对待分类的输入样本进行形式化，然后输入到分类器进行类别判定，最终得到输入样本的类别。

情感语义分析的难点在哪里？

一词多义，既要考虑到横向的，在不同场景、上下文中的多义，亦要考虑到纵向的随着年代变化的多义。

先码这么多，之后补充。