1. 背 景
剧本分析是内容生产链条的第一环,因此,我们结合专家经验知识、大数据与自然语言处理技术来帮助业务部门快速分析和评估剧本。评估体系中涉及到了大量关于角色的分析,其中角色的情感分析是非常重要的一个任务。
不同于通常的评论类短文本,剧本有其独有的业务特点,因此任务的目标和建模与通常的任务区别较大。本文将系统的介绍情感分析领域相关的内容,以及爱奇艺在剧本分析中针对角色进行细粒度情感分析所做的工作。
2. 常见的情感分析任务的分类
2.1
传统的情感分析
传统的情感分析,通常是对一句话,或者一段话做出一个总的情感判定(积极、消极、中性),可以看做是一个文本分类任务。通常的方法分为:词法规则分析、算法模型分析、混合分析。
【词法规则】
使用词法分析将输入文本转换成词序列,然后依次和一个预先准备好的字典进行匹配。如果是积极的匹配,那分数就增加;如果是消极的匹配,分数就减少。文本的分类取决于单词序列的总得分。当然,计算公式上可以有一些变化,不一定是单纯的线性加减。
这个方法的优点是简单、快速;缺点是准确度偏低,且效果和性能很大程度取决于人工构建的字典。
【算法模型分析】
情感分析任务中通常是使用有监督的模型,一般可以分成三个阶段:数据收集、预处理、训练分类。可以使用NB、LR、SVM等传统机器学习算法,以及CNN、RNN系列等深度学习算法。
传统的机器学习方法,特征的构建很重要,这是决定准确率的关键。特征构建方法也很多。比如:N-grams、积极/消极词汇的数量、文本长度等。深度学习时代,关键是网络结构的设计、以及语料的构建。
【混合分析】
工业应用上,很多时候都是将“词法分析”与“算法模型分析”两种方法相结合进行使用。一些研究者在这方面做了大量工作。一般都是先利用字典对原文本进行处理转化、然后再利用算法模型来进行分类。
随着深度学习的发展,特别是Bert这些预训练模型的出现,大家的重心和焦点都发现了变化。从原来研究各种数据处理、特征提取的trick,转为研究如何设计网络、如何转化问题以最大程度利用预处理模型。
2.2
target-dependent 情感分析
与典型情感分析任务不同,target-dependent情感分析是研究基于目标的情感。给定一个句子和句子相关的一个对象,判断句子针对给定的对象的情感倾向。
例如,有句子:“张三在学校里很受大家欢迎,但是邻居李四不太受欢迎 !”
其中,基于目标“张三”,句子的情感是正向的;基于“李四”,句子的情感是负面的。
可见,与传统的情感分析任务相比,任务的难度和复杂性大大增加,一般都是用深度学习模型来解决。
2.2.1 TD-LSTM
传统的LSTM模型并没有考虑被评估的目标词和上下文的相互关系,为了引入这一部分的信息, TD-LSTM 应运而生。TD-LSTM 的主体结构是基于LSTM的。其基本思路是根据target words之前和之后的上下文分别建模。所以实际上,使用的是两个 LSTM 模型:
![42a6078097748fc9af8077a93f7cee87.png](https://i-blog.csdnimg.cn/blog_migrate/95cb9a2f2a24c80c1bf918ed433955f6.jpeg)
和
![0b1e7af1cbdbac4ba91eb83243286a68.png](https://i-blog.csdnimg.cn/blog_migrate/55cb908756aa24738544a90258ae709e.jpeg)
。
![cafd0d5237c2509af066e6ebe55acedc.png](https://i-blog.csdnimg.cn/blog_migrate/3e6f271924e6f21ddfba6f97ceb55ac6.jpeg)
的输入为目标词之前的上下文加上目标词,即从句子的第一个单词,到最后一个target words
![92f19553b856e296a1ff936388460ce2.png](https://i-blog.csdnimg.cn/blog_migrate/352f7b3220f6339a3f5722c03ff2d73e.jpeg)
依次输入;
![f61f15413f609dae6f818e51eb4b127a.png](https://i-blog.csdnimg.cn/blog_migrate/8efafde9587b14758bdbcbbb4d087580.jpeg)
的输入则是目标词之后的上下文加上目标词,即从句子的最后一个单词
![fe711c550899930bd30c2fc74376009b.png](https://i-blog.csdnimg.cn/blog_migrate/ab888343295f4ef371acf55d859addf3.jpeg)