1. 什么是观点
观点是一个广义的概念,包括了情感、评估、评价、态度,以及其他相关信息,包括观点持有者和观点评价对象。
观点四元组表示。观点的结构化表示一般有四元组:
(
g
,
s
,
h
,
t
)
(g, s, h, t)
(g,s,h,t)
其中,
g
g
g表示观点评价对象或者评价对象的属性,
s
s
s表示情感词,
h
h
h是观点持有者,
t
t
t表示观点的评价时间。不同的观点持有者,其评论的观点影响力可能会不一致,比如一个总统的观点可能比普通人的观点更加重要;而时间则可以反映观点的时间变动情况,一个人在不同的时间,可能对一个评价对象的观点是不一致的。
常规型观点。常规型观点在文献中常简称为观点,主要包括以下两类:
- 直接观点:直接观点是直接对实体或实体属性表达的观点。
- 间接观点:间接观点是间接地对实体或实体属性表述的观点,而这一实体或实体属性会对另外一些实体尝试正面或负面的影响。比如“注射药物后,我的关节感觉很痛”。
比较型观点。比较型观点是对两个或更多实体之间的相同或不同点进行比较,表达了观点持有者对其中一个的偏好。比如“可口可乐比百事可乐好喝”。
第一人称观点。表达了一个人或团体对一个实体的态度。
非第一人称观点。由一个人转述他人的观点,即相信他人会持有某种观点。
元观点。元观点是对观点的观点。比如:“我对中国足球在比赛中失分觉得很伤心。”
2. 情感对象
情感对象又称为观点评价对象,是观点所评价的实体、实体的一部分或实体的一个属性。
一个实体 e e e可以被层次化地分解和表示,可以是一个产品、服务、主题、个人、组织、事件。可以用一个对 e : ( T , W ) e:(T,W) e:(T,W)来描述,其中 T T T是一个层次关系,而 W W W是 e e e的属性集合。在很多文献中,实体也被称为对象,实体属性也被称为特征。
观点五元组表示。当实体采用实体对的形式表示时,此时观点的表示可以表达为五元组:
(
e
,
a
,
s
,
h
,
t
)
(e, a, s, h, t)
(e,a,s,h,t)
五元组的表示法也是工业中经常采用的存储形式。当观点针对整个实体进行评价时,此时属性用一个特定的值“general”表示。
3. 观点中的情感
情感是观点中所蕴含的感受、态度、评价或情绪。通常情感由一个三元组表示:
(
y
,
o
,
i
)
(y, o, i)
(y,o,i)
其中,
y
y
y是情感类型,
o
o
o是情感的倾向,
i
i
i是情感的强度。
情感类型有基于语言学、心理学和消费者调研等划分方法,一般用的比较多是消费者调研,它将情感分为两种类型:理性情感和感性情感。
理性情感来源于理性推理、切实的信念和实用主义的态度,不包含任何主观的情绪。比如“手机的音质很清晰”。
感性情感则存在于人们深度的心理状态之中,来自于对实体的不可触及切情绪化的反应。比如“我对他们的服务人员很生气”。
情感倾向可以是正面、负面或者中立的。
情感强度表示情感的不同强度,一般有三种方法,一种是对情感词划分强度,比如good和excellent表达对情感强度就不同;另一种是采用程度副词,比如非常、很等。第三种是采用情感评分,一般采用5档评分,评分规则如下:
- 感性正向(+2分或5星)
- 理性正向(+1分或4星)
- 中立(0分或3星)
- 理性负向(-1分或2星)
- 感性负向(-2分或1星)
4. 情感分析的目标和任务
情感分析的目标就是给定一个包含观点信息的文档 d d d,抽取出 d d d中所有观点五元组,抽取完成后,需要对抽取楚的实体和属性进行分类,这里涉及几个概念:
- 实体类别:指的是一个唯一特定的实体
- 实体表达:也叫实体提及,指的的段落中实际表示一个实体类别的词或短语
- 属性类别:实体的一个唯一特定的属性
- 属性表达:也叫属性提及,指的是段落中实际表示一个属性的词或短语,可以名词、名词短语、动词、动词短语、形容词、副词等。
每个实体或者实体类别都应当在一个特定应用中有唯一的名称,把实体表达聚合或组合为实体类别的过程叫作实体消解或者实体聚类,同样地,把不同具有相同语义但不同文本的属性表达组合为一个属性类别的过程叫做属性消解或者属性聚类。
5. 观点摘要定义
基于属性的观点摘要:对于实体 e e e的基于属性的观点摘要结果具有如下形式:
- general:
- 对实体 e e e持正面观点的人数
- 对实体 e e e持负面观点的人数
- 属性1:
- 对实体 e e e的属性1持正面观点的人数
- 对实体 e e e的属性1持负面观点的人数
其中,general表示实体本身。