《情感分析:挖掘观点、情感和情绪》(美)刘兵,2017年
与客观性信息不同,情感和观点有一个重要特征,即它们是主观性信息。
主观性体现在3个方面:
- 不同人有不同经历,也就会产生具有不同情感倾向的观点;
- 不同人对相同事物有不同看法,这是由于所有的事物都有两面性;
- 不同人也许会有不同的兴趣和不同的意识形态。
一、观点定义
这里,观点是一个广义的概念,包括:情感、评估、评价、态度,以及其他信息,包括观点持有者和观点评价对象。
我们使用情感这个词表示观点中那些暗含的褒义或贬义的感受。
“一”主要定义单一观点(区别于“一组观点”)。
(一)观点的定义
只是一种常规型观点类型,比较型观点需要另行定义
g:观点评价对象
s:观点针对目标g所蕴含的情感
h:观点持有者
t:表达此观点的时间
(二)情感对象
(定义)情感对象又称为观点评价对象(目标),是观点所评价的实体、实体的一部分或实体的一个属性。
(定义)一个实体e可以使一个产品、服务、主题、个人、组织、论题或事件,可描述e为(T,W)。T,是一个层次关系,包含组件、子组件等;特征W,是e的一个属性集合。每个组件/子组件也有自己的属性。
主题信息也可以作为实体,如“加税”,它的子主题(组件)可以包括对穷人加税,对中产阶级加税,对富人加税。
这个定义基于一种部分整体(part-of)关系对实体的层次结构进行描述,根节点是实体名。
(三)观点中的情感
(定义)情感是观点中所蕴含的感受、态度、评价或情绪。通常情感由一个三元组表示:
y:情感类型
o:情感的倾向
i:情感的强度
1. 情感类型
有不同划分方法,如基于语言学、基于心理学、基于消费者调研等,本书选择基于消费者调研的分类方法,将情感分为两种——理性情感和感性情感。
(定义)理性情感来源于理性推理、切实的信念和实用主义的态度,不包括任何主观的情绪。
例:
The voice of this phone is clear.
This car is worth the price.
(定义)感性情感存在于人们深度的心理状态之中,来自于对实体不可触及且情绪化的反应。
例:
I love the iPhone.
I am so angry with their service people.
This is the best car ever.
感性情感比理性情感更强烈,且实践中通常更重要。
2. 情感倾向(/极性/语义倾向/情感的价)
正面(褒义)、负面(贬义)、中立(没有情感)。
3. 情感强度
常见的英语强度词:very,so,extremely,dreadfully,really,awfully,terribly。
常见的英语减弱词:slightly,pretty,a little bit,somewhat,barely。
4. 情感评分
用离散化的评分来表达情感的强度。5档情感评分:
感性正向:+2 / 5星
理性正向:+1 / 4星
中 立: 0 / 3星
理性负向:-1 / 2星
感性负向:-2 / 1星
实际应用中,可以分别把“感性正向”和“感性负向”再分为2档。
(四)简化的观点定义
使用属性或方面这个词来指代目标实体的组件和参数。在这棵简化的树中,根节点依然是实体本身,第二层的节点是该实体的不同属性。
现在,观点是一个五元组:
e:目标实体
a:实体e中一个观点评价的实体属性
s:对实体e的a属性的观点中所包含的情感
h:观点持有者
t:观点发布时间
基于此定义的情感分析/观点挖掘,称为基于属性的情感分析/基于特征的情感分析。
- 当观点针对整个实体进行评价时,一般使用一个特定的属性GENERAL进行表示。
- e和a共同表示观点评价的对象。
在特定应用中,可以省略部分元组,比如省略观点持有者或观点发布时间。
(五)观点的理由和限定条件
1. 观点的理由
例:
I do not like the picture quality of this camera because the pictures are quite dark.
2. 观点的限定条件
例:
This car is too small for a tall man.
The picture quality of this camera is not good for night shots. //但这句没有原因
The picture quality of this camera is not good for night shots(限定词) as the pictures are quite dark(负面情绪的原因).
(六)情感分析的目标和任务(基于属性的)
1. 目标
给定一个包含给定信息的文档d,找出d中所有的观点五元组(e,a,s,h,t)。
//对于更高级的分析需求,还要找出每个观点五元组中的情感的原因和限定条件。
2. 关键任务(与五元组组成成分密切相关)
①抽取实体,并对抽取的实体进行分类(某些词可能指向同一个实体);
②属性抽取;
③情感分类或回归;
④观点持有者;
⑤观点的发布时间。
//④⑤也同样有类别和表达之分。
3. 情感分析的任务
①实体抽取和消解;
②属性抽取和消解;
③观点持有者抽取和消解;
④时间抽取和标准化;
⑤属性的情感分类和回归;
⑥生成观点五元组;
⑦观点原因抽取和消解;
⑧观点限定条件抽取和消解。
二、观点摘要定义
基于属性的观点摘要:
GENERAL:对实体e持正面观点的人数;
对实体e持负面观点的人数。
属性1 :对实体e的属性1持正面观点的人数;
对实体e的属性1持负面观点的人数。
……
属性n :对实体e的属性n持正面观点的人数;
对实体e的属性n持负面观点的人数。
三、感情、情绪与心情
(一)心理学中的感情、情绪、心情与感觉
(二)情感分析中的感情、情绪与心情
1. 常见几种表达情绪和心情的方法:
①使用情感词,如love,disgust,angry,upset;
②描述情绪相关的行为,如cry,jump up and down;
③使用强度词;
④使用最高级;
⑤使用贬义词、褒义词,以及表示反讽的词;
⑥使用咒骂、侮辱、责怪、指责、威胁性质的文本表述。
2. 情绪的定义
e:目标实体;
a:e的属性;
m:情绪的类型;
f:情绪的接受者;
t:情绪的表达时间。
3.情绪的致因
四、观点的不同类型
(一)常规型观点和比较型观点
(二)主观的和隐含在事实中的观点
1. 主观观点
主观观点是在主观陈述中表达的常规型观点或比较型观点。
2. 隐含在事实中的观点
①隐含在个人事实中的观点。 暗含这种观点的事实陈述是关于某人的个人经历的。
例:
I bought the mattress a week ago, and a valley has formed in the middle.
My dad bought the car yesterday and it broke today.
The battery life of this phone is longer than my previous Samsung phone.
②隐含在非个人事实中的观点。 不暗含个人的任何看法,常见与新闻报道中,而被报道的事实中也不含任何人的任何观点。
例:
Google’s revenue went up by 30%.
The unemployment rate came down last week.
Google made more money than Yahoo last month.
不过,我们依然可以把它们当做同一种类型的观点,原因如下:
▪ 句子中暗示了对所涉及实体和话题的期望或不期望的一种意愿;
▪ 发布这些句子的人也许在暗示一个针对某实体的正面或负面的观点。
(三)第一人称和非第一人称观点
在一些应用中,需要区分当前观点是第一人称观点还是非第一人称观点,例如,在政治选举中,一个投票人基于自己对每个候选人对议题所持立场的认可度而投票,而不是根据每个候选人真正的立场进行投票,候选人表达出的立场与其真正的立场可能一致,也可能不一致。
1. 第一人称观点
例:
Tax increase is bad for the economy.
I think Google’s profit will go up next month.
We are seriously concerned about this new policy.
Coke tastes better than Pepsi.
注意,并不是每个句子都需要使用第一人称代词我、我们、或显式地提到机构的名称。
2. 非第一人称观点
转述他人的观点,即相信他人会持有某种观点。
例:
I think John likes Lenovo PCs.
Jim loves his iPhone.
President Obama supports tax increase.
I believe Obama does not like wars.
(四)元观点
(概念)元观点,对观点的观点,即元观点评价的对象也是一个观点,被评价的观点常包含于从句中。
例:
I am so upset that Google’s profit went up.
I am very happy that my daughter loves her new Ford car.
I am so sad that Germany lost the game.
五、作者和读者视角
略。
六、本章小结
本章主要定义了观点和情感的概念,介绍了情感分析的主要任务、观点摘要的基本框架,讨论了不同的观点类型。
情感分析是一个涉及多任务多视角的研究领域,而且是主观的。