摘要:情感计算作为一个全世界范围内的学术热点,研究方向遍及心理学、生理学、神经科学、语言学、医学、社会学等学科。情感计算的研究使形式化的机器更加形象化,是实现自然人机交互的前提。本文结合近几年情感计算的国内外研究,基于新的层面对主要研究以及最新应用进行了归纳总结,并就情感计算进行深度探究,使更多研究人员了解情感计算最新研究方向。
关键字:情感计算,情感识别,人机交互,情感复杂性
一.引言
大约半个世纪前,美国心理学家“认知心理学之父” 奈瑟尔(Neisser Ulrich)描述了人类思维的三个基本和相互联系的特征,这些特征在计算机程序中也明显存在着:“1.人类的思维总是随着成长和发展过程积累,并且能对该过程产生积极作用;2.人的思想开始于情绪和情感的永远不会完全消失的密切关系中;3.几乎所有的人类活动,包括思维,在同一时间的动机具有多样性而不是单一的”。Herbert A. Simon在表达了相似的观点。尽管情绪和情感是人类日常生活中的基本组成部分,但缺乏情感交互的技术是另人沮丧的,它在技术层面实现自然的人机交互仍是一个亟需解决的问题。目前,情感计算越来越受到研究者的重视。类似研究,有人工情感(artificial emotion,AE)、感性工学(kanseiengineering, KE)、情感神经学(affectiveneuroscience)等。明斯基在他的著作和论文中强调了情感方面,大量关于数据手册涉及情感神经科学、情感心理学等方面。IEEE Transactionon Affective Computing(TAC)跨学科、国际化期刊、Affective Computing and IntelligentInteraction (ACII) 学术会议等学术支持鼓励研究者们对识别、诠释、模拟人类情绪和相关情感方面的研究的突破和创新。
二.情感及情感计算
2.1 情感相关概念的界定
情感( emotion) 一词源于希腊文“pathos”,最早用来表达人们对悲剧的感伤之情。达尔文(Darwin)认为,情感源于自然,存活于身体中,它是热烈的、非理性的冲动和直觉,遵循生物学的法则。理智则源于文明,存活于心理。《心理学大辞典》中定义“情感是人对客观事物是否满足自己的需要而产生的态度体验”。马文明斯基认为情感是思维的一部分。史蒂芬平克也持有这样的观点,即“情感是被当作非适应的包袱而被过早的注销的另一部分心智”。Damasio在他的神经生物学的研究结果的基础上将情感至少分为两类,即原发性情感和继发性情感。原发性情感这类情感被认为是与生俱来的,被理解为一岁儿童情感这种典型的情感类型,继发性情感被假设为从更高的认知过程中产生。而Russell则从两个方面构造情感:核心情感和心理建构,前者表示神经系统的状态,如昏昏欲睡;后者表行动,如面部表情、音调,以及行动之间的关联。由于情感的复杂性,研究情感的相关学者对情感的定义至今也未达成一致,记载的相关理论就有150多种。
而“emotion”一词由前缀“e”和动词“move”结合而来,直观含义是从一个地方移动到另一个地方,后来逐渐被引申为扰动、活动,直到近代心理学确立之后,才最终被詹姆斯(William James)用来表述个人精神状态所发生的一系列变动过程。Picard曾在其书中专门对情感和情绪方面术语进行了区分,她认为相对情感而言,情绪表示一个比较长的情感状态。情感影响我们的态度、情绪和其他感觉、认知功能、行为以及心理。同时情感容易在多次情绪体验的基础上实现,当人们多次觉得完成一项任务很高兴,就会爱上这个任务。相比情绪而言情感更具有深刻性和稳定性。在自然语言处理中,Myriam D等人结合韦氏字典以及他们的相关研究得到的结论是,在语言中情感是无意识的,并且很难将其定义,从文本中可以检测到的是有意识的情感,是情绪表征。而情绪这一复杂心理学现象几乎不能从文本中全部检测出,能检测到的是情绪的构成因素。许多关于情感计算的研究并没有完全区分情绪和情感(包括本文引用的大部分论文),为与情感计算研究领域保持一致,本文除在此处对情感和情绪进行区别说明外,尽可能的统一使用情感一词。
2.2 情感计算
情感计算最早起源于美国MIT 媒体实验室皮卡德(Picard)了解Richard Cytowic的一本关于联觉的书《The Man Who Tasted Shapes》。Cytowic在书中提出感知一定程度上由大脑边缘系统处理,这个部分处理注意、记忆和情感。1995年情感计算的概念由Picard提出,并于1997年正式出版《Affective Computing(情感计算)》。在书中,她指出“情感计算就是针对人类的外在表现,能够进行测量和分析并能对情感施加影响的计算”,开辟了计算机科学的新领域,其思想是使计算机拥有情感,能够像人一样识别和表达情感,从而使人机交互更自然。
当然,和众多的科学研究领域一样,并不是所有的研究者都同意Picard的想法。这些支持者Sengers、Gaver、Dourish和Kristina Hook借鉴现象学并且把情感看作人与人、人与机互动中的成分。情感互动方法认为应从一个对情感建设性的、人文决定性视角展开,而非从认知和生物学这一更传统的角度出发,这种方法将重点放在使人们获得可以反映情感的体验并以某种方式来修改他们的反应。
三.情感计算的探究
3.1 情感复杂性的探究
(1)外在复杂性的探讨
相比其他情感表征(手势、步伐、声音等)面部表情是最容易控制的 。面部表情是人脸上不同情绪的反应,实际上表达情绪时是脸部、眼睛或皮肤肌肉位置的变化。对情感最容易理解的是坦率的面部表情,然而不同国家的人面部表情各不相同。相对于其他国家,亚洲人民的面部表情强度比较低。因为在亚洲文化中,脸上表现出一些特殊情绪是不礼貌的。展现出消极情绪会影响社会的和谐。这也印证了早期埃克曼证明了文化的最大不同在于,如何在公共场合表达情绪。他偷偷拍摄了美国留学生和日本学生观看一次原始成年人礼的可怕画面的表情。如果穿白大褂的实验人员对他们进行集体访谈,日本学生会在看到令美国学生吓得往后退缩的场景时仍礼貌的面带微笑。当被试们单独呆在房间里时,日本留学生与美国学生面部表情都是同样恐惧的。对于外在复杂性,研究者采用的方法多为多模态结合,额外信息叠加、以及结合与时代同步的科技产品方法等来提高识别率。
Beaudry, Olivia等人的设计实验澄清六种基本情感识别中眼睛(眉毛)和嘴巴区域的作用,并得出的结论是对于所有的情绪,面部表情识别过程不能被简化为简单的特征或整体处理。新加坡国立大学电气工程系的Gu W等人利用人类视觉皮层(HVC)和径向编码来提高性能,并提出混合面部表情识别框架。此面部表情的识别框架也可以应用到体态识别,并且还可以从图像提取出一些额外的信息如:用户的年龄、性别。
但是人与人之间的情感交互是复杂的,单一的感官得到的数据是模糊的、不确定的、不完备的。因此研究人员们应用多种方式识别情感状态,20世纪90年代最初的方式是融合视觉(面部表情)和音频(音频信号)的数据,多种方式整合提高识别精度,使情感计算相关研究更可靠、更有效。陈等人尝试身体姿势和面部表情识别混合模型,基于澳大利亚悉尼科技大学的人脸和身体姿势(FABO)双模数据库,实验中选择了284个视频,这些视频包含了基本表达(嫌恶、害怕、高兴、惊讶、悲伤、生气)和非基本的表达(焦虑、无聊、困惑、不确定)。实验框架主要分为五部分:面部特征提取和表示,身体姿态特征提取和表示,表达时间分割,时间归一化,表达分类。
身体姿势交流同面部表情都属于非语言交流的方式。越来越多不同学科的研究已经表明,在传达情感方面,身体的表达像面部表情一样强大。40个用户通过三个不同的界面(接口)观看智能电视,远程控制器、姿势识别、语音识别系统和表情识别系统。情感计算提取人体手势的特征来识别用户的情绪。同时,虚拟现实(Virtual Reality,VR)技术的发展,人机交互中肢体的参与度也逐渐增大,身体姿势不仅控制我们和游戏之间的互动,还会影响我们自己的情绪。蓝眼睛(BLUE EYES)技术,“蓝”代表实现可靠的无线通信的蓝牙,“眼睛”是由于眼睛运动是我们获得更多有趣和重要的信息。蓝眼睛技术主要用于:视觉注意监测;生理状态监测(脉搏率,血氧);操作者的位置检测(站立,卧,坐)。在这项技术中,检测到人的表情,捕获图像,并且提取显示眼睛的部分。
(2)内在复杂性的探讨
文本句子中每一个形容词、动词、或者仅仅是一个字都可以表达情感状态。笔记分析技术不仅可以通过书写者的情感输出分析笔记特征如:基线、倾斜、笔压、大小、边缘区。它还可以揭示书写者的健康问题、道德问题、过去的经历、精神问题以及隐藏的才能。Sofianita Mutalib等人发现笔记分析在某种程度上帮助我们理解书写者本人的行为、动机、欲望、恐惧、情感投入等多方面。史伟等通过构建情感模糊本体,计算文本影响力等,对微博公众情感进行一系列分析,发现公众对于突发事件的情感表达与政府对于事件处理方式和手段有密切关系。使用任何文字表达情感是受文化影响的,文化在情感文本表达中的作用这一问题需要自然语言研究者们创造更强大的检测算法。
戴维森(R J Davidson )在2002年领导的团队,情感体验并不是简单地发生在我们的头脑中,我们的整个身体都在感知着它们。例如,我们的血液中激素变化,传达到肌肉的神经信号紧张或放松,血液流到身体的不同部位,改变了身体的姿势、动作和面部表情。我们身体的反应也会反馈到我们的大脑中,创造了可以反过来调节我们思维的经验,这也反馈到我们的身体上。随着科技的发展,许多数据可以从互联网和智能手机获得。一个典型的智能手机包含多个传感器等内部运动(加速度计)、环境光、陀螺、手势、磁强计、温度和湿度和气压计。常见于智能手机的通信接口,Wi-Fi、GPS、近场通信(NFC)、蓝牙和红外(IR)的LED。许多额外的传感器可用于生理测量。Jorge Alvarez-Lozano 等研究人员通过捕获包括输入和输出呼叫频率、持续时间和联系人的详细信息等智能手机的活动,分析患者的行为变化。测量上网活动包括:搜索查询、浏览网页、网站类型、广告选择和电子商务史等。用户创建的数据,如电子邮件,短信(短信),社会媒体,或博客的内容可以分析。此外,元数据(信息的信息)是由一个智能手机或互联网,其中包括帐户号码,登录用户名,密码,浏览器类型,网络地址,网页访问,日期,时间,电子邮件发送者和接收者,饼干,设备的指纹。Kaveh Bakhtiyari等人认为在处理面部表情、人的声音或人的姿势时,有些权衡识别精度和实时性能的方法,像自然语言处理(NLP)和脑电图信号(EEG)这些方法在实际应用中缺乏效率和可用性。因此提出了使用方便和低成本的输入设备,包括键盘、鼠标(触摸板、单触摸)和触屏显示器。该系统通过人工神经网络(ANN)和支持向量机(SVM)技术开发和训练监督模式。结果表明,与现有方法相比,该方法通过svm增长6%的准确度(93.20%)。对于情感识别、用户建模和情感智能都起到了突出贡献。
3.2 情感计算的最新应用探究
近几年研究者们尝试了各种各样的方法和技术来识别用户的情感,一些主要的方法和技术有:面部表情识别、姿态识别、自然语言处理、人体生理信号识别、多模情感识别、语音识别。人机情感交互则包括人脸表情交互、语音情感交互、肢体行为情感交互、文本信息情感交互、情感仿生代理、多模情感交互。情感仿生代理使计算机增强表现力和亲和力,情感智能系统可以根据人的情感进行回馈,并且使人和计算机的交互更加自然。
全世界学多实验室都在积极的对情感计算相关技术进行研究,本部分总结近三年国内外情感计算主要的应用研究。2014年MIT实验室的AutoEmotivethe通过安置在机器比如汽车上的硬件设备(如相机等)结合基于程序语言的语音识别应用、可穿戴设备(对当前情绪进行实时调节),尤其是面部识别算法,获取一系列情绪指标,弥补获取生理信号类的传感器的不足,探索情感感知与机器连接的潜力。Affectiva公司的Affectiva使用计算机视觉和深度学习技术分析面部(微)表情或网络上视觉内容中非语言的线索,基于积累的庞大数据存储库,学习识别更复杂的系统,将情感人工智能引入到新的科技领域,尤其是机器人、医疗、教育和娱乐,并展望将此系统用于通过检测癫痫病患者的情感信号来做好发病前的预测以进行防护准备等。2015年阅面科技推出了情感认知引擎:ReadFace。由云(利用数学模型和大数据来理解情感)和端(SDK)共同组成,嵌入任何具有摄像头的设备来感知并识别表情,输出人类基本的表情运动单元,情感颗粒和人的认知状态,广泛应用于互动游戏智能机器人(或智能硬件)、视频广告效果分析、智能汽车、人工情感陪伴等。国内大学中哈尔滨工业大学机器人技术与系统国家重点实验室实现语音情感交互系统,提出了智能情感机器人进行情感交互的框架,设计实现了智能服务机器人的情感交互系统。北京航空航天大学基于特征参数的语音情感识别并能有效识别语音情感。中国科学技术大学基于特权信息的情感识别,提出了融合用户脑电信号和视频内容的情感视频标注方法,以某一模态特征为特权信息的情感识别和视频情感标注方法。清华信息科学与技术国家实验室,中国科学院心理研究所行为科学院重点实验室基于生理大数据的情绪识别研究进展,针对使用DEAP数据库(用音乐视频诱发情绪并采集脑电及外周生理信号的公开数据库)进行情绪识别的16篇文章做了梳理;对特征提取、数据标准化、降维、情绪分类、交叉检验等方法做了详细的解释和比较。
四.情感计算的深度探究
现在已实现的情感计算大部分原型情感的识别来源单一。数据库本身存在短板,如训练分类的样本数少,体态识别大多依赖于一组有限的肢体表达(跳舞、手势、步态等),只关注内部效度而缺少外部效度的认可效。因此识别方面,未来研究应在情感分类方面继续努力,创建新的数据库,等特别是婴幼儿及儿童数据库的建立。
神经科学方面,人类大脑情感过程的神经解剖学基础极其复杂并且远未被理解,因此该领域还不能为开发情感计算模型提供充足的理论基础。
人机交互或人与人交互过程中,人的情感变化是变速的。虽然皮卡德(Picard)在《情感计算》一书中分别用两个比喻将情感复合分成两类:微波炉加热食物时开关间断循环与冷热水混合。两者通过不同方式的复合使物体达到“温”的状态,前者类似于“爱恨交加”情感对的情感状态,后者类似于Russell等人的环形情感模型中的愉快与低强度结合为轻松这种新状态。但基于不同情境下的情感复合远不止这两类。以动态的数字平台将这种做成模型很难实现和验证,因为情感的输入、输出应该在不同的情境下产生和测试。
目前国外已经有一部分研究者开始关注深度情感计算方面的研究,如Ayush Sharma等人利用语言数据联盟(Linguistic DataConsortium,LDC)中的情绪韵律的语音和文本,基于交叉验证和引导的韵律特征提取与分类的深层情感识别。随着后续情感方面的深度研究,多模型认知和生理指标相结合、动态完备数据库的建立以及高科技智能产品的加入等成为情感计算相关研究的一个趋势,从而更好地实现对用户行为进行预测、反馈和调制,从而实现更自然的人机交互。
参考文献