深度语义理解在剧本角色情感分析中的探索与应用

最新推荐文章于 2024-06-11 11:25:03 发布

Litra LIN

最新推荐文章于 2024-06-11 11:25:03 发布

阅读量794

点赞数 1

分类专栏：天池文章标签：自然语言处理算法深度学习

本文链接：https://blog.csdn.net/qq_48314528/article/details/120683225

版权

天池专栏收录该内容

3 篇文章

订阅专栏

深度语义理解在剧本角色情感分析中的探索与应用

1、背景

剧本分析是内容生产链条的第一环，因此，我们结合专家经验知识，大数据与自然语言处理计数来帮助业务部门快速分析和评估剧本。评估体系中涉及到了大量关于角色的分析，其中角色的情感分析是非常重要的一个人物。

不同于通常的评论类短文本，剧本有其独特的业务特点，因此任务的目标和建模与通常的任务区别不大。本文将系统地介绍情感分析领域的相关内容，以及爱奇艺在剧本分析中针对角色进行细粒度情感分析所作的工作。

2、常见的情感分析任务的分类

2.1 传统的情感分析

传统的情感分析，通常是对一句话，或者一段话所作出的一个总的情感判定（积极，消极，中性），可以看作是一个文本分类任务。通常的方法分为：词法规则分析，算法模型分析，混合分析。

【词法规则】

使用词法分析将输入文本转换成词序列，然后依次和一个预先准备好的词典进行匹配。如果是积极的匹配，分数就增加；如果是消极的匹配，分数就减小。文本分类取决于单词序列的总得分。当然，计算公式上可以有一些变化，不一定是单纯的线性加减。

【算法模型分析】

情感分析任务中通常是使用有监督的模型，一般可以分成三个阶段：数据收集，预处理，训练分类。可以使用NB，LR，SVM等传统机器学习算法，以及CNN，RNN等系列深度学习算法。

传统的机器学习任务，特征的构造很重要，这是决定准确率的关键。特征构建方法也很多。比如：N-grams、积极/消极词汇的数量、文本长度等。深度学习时代，关键是网络结构的设计，以及语料的构建。

【混合分析】

工业应用上，很多时候都是将“词法分析”与“算法模型分析”两种方法结合进行使用。一些研究者在这方面做了大量工作，一般都是先利用字典对原文本进行处理转化，然后再利用算法模型进行分类。

随着深度学习的发展，特别是Bert这些预训练模型的出现，大家的中心和焦点都发生了变化。从原来研究各种数据处理，特征提取trick，转为研究如何设计网络，如何转化问题以最大程度利用预处理模型。

2.2 target-dependent情感分析

与典型情感分析任务不同，target-dependent情感分析是研究基于目标的情感。给定一个句子和句子相关的对象，判断句子针对给定的对象的情感倾向。

例如：有句子：“张三再学校很受大家欢迎，但是邻居李四不太受欢迎。”

其中，居于目标“张三”，句子的情感是正向的，；基于“李斯”，句子的情感是负面的。

可见，与传统的情感分析任务相比，任务的难度和复杂性大大增加，一般都是使用深度学习模型来解决。

2.2.1 TD-LSTM

传统的LSTM模型并没有考虑被评估的目标词与上下文的相互关系，为了引入这一部分的信息，TD-LSTM应运而生。TD-LSTM的主体结构是基于LSTM的。其基本思想是根据target words之前和之后的上下文分别建模。所以实际上，使用的两个LSTM模型： $LSTM_L$ 和 $LSTM_R$ 。 $LSTM_L$ 的输入为目标词之前的上下文加上目标词，即从一个句子的第一个单词，到最后一个target words $W_{r-1}$ 依次输入； $LSTM_R$ 的输入则是目标词之后的上下文加上目标词，即从句子的最后一个单词 $W_n$ ，到第一个target words $W_{l+1}$ 依次输入。模型用SoftMax函数作为最后一层的激活函数来实现分类，用交叉熵作为损失函数来计算损失。模型结构和LSTM对比如下：

2.2.2 TC-LSTM

TC-LSTM在TD-LSTM的基础上，在输入端加入了 $V_{target}$ ，即target words的信息。具体做法就是将原先的词向量与target words向量拼接起来，其中 $V_{target}$ 是所有target words字向量的平均值。TC-LSTM整个了target words和context words的相互关联信息。模型同样用SoftMax函数作为最后一层的激活函数来实现分类，用交叉熵作为损失函数来计算损失。模型结果如下：

2.3 Aspect-level情感分析

TD-LSTM和TC-LSTM两个模型，只能用于target在句子中都出现的情况。对于aspect，它往往是某个target的抽象，aspect本身在句子中可能没有出现。而TD-LSTM、TC-LSTM两个模型都需要知道target在句子中的具体位置，因此在面向aspect的任务中无法使用。

2.3.1 AT-LSTM

Aspect信息在对象级情感分析任务上具有至关重要的作用，给定同一句话，针对不同的Aspect可能会得到完全相反的结果，为了最好的利用Aspect的信息，需要为每一个Aspect学习对应的向量，然后将Aspect向量的信息输入到模型之中。另外，传统的LSTM方法在对象级情感分析任务上不能检测到文本信息的哪一部分是最关键的，为了解决这一问题，AT-LSTM方法增加了attention机制。模型首先通过一个LSTM模型得到每个词的隐藏状态向量，然后将其与Aspect Embedding连接，Aspect Embedding作为模型参数一起训练，从而得到句子在给定的aspect下的权值向量 $\alpha$ ，最后根据权值向量 $\alpha$ 对隐藏向量进行赋值，得到最终的句子表示，然后预测情感。模型的结果如下图所示：

2.3.2 ATAE-LSTM

(Attention-based LSTM with Embedding)

在AT-LSTM的基础上，在句子输入时再额外拼接对象词向量，就是ATAE-LSTM模型，即同时在模型的输入部分和隐藏部分引入aspect信息。与TC-LSTM的思想类似，使用这种额外的方法进一步在句子表示中更好地利用目标词和每个上下文词之间的关系。模型的结构如下图：

2.3.3 TNET

TNET模型结构如下图所示：

最底部是一个Bi-LSTM，根据输入的词序列 $X={x_1,x_2,...,x_n}$ 经过Bi-LSTM得到状态输 $h(0)={h_1(0),h_2(0),...,h_n(0)}$ ，中间层包含L个CPT层，模型经过中间层将结果送到最上层的卷积层，使用Max Pooling的方法提取特征，最后使用SoftMax得到输出的情感类别。

可以看到，关键在于CPT模块，每一个单独的CPT结构如下图所示：

包括量身定制的TST（Target-Specific Transformation）和LF/AS两个子结构。TST结构主要是为了强化上下文的词表达与对象表达之间的关系，其最底层是一个Bi-LSTM，输入是对象词的Embedding，输出对应的隐藏层状态。由于传统的方法（多个对象词取平均）会忽略组成target（即对象）的多个词的顺序及重要度，这样的对象词表达会更加充分地表示原有对象词的含义。同时，在其上加上一个attention，基于每一个hmt（target的隐层状态输出）和每一个输入的 $h_i^{(l)}$ 得到 $r^t$ ，最后将r和h拼接后经过一个全连接层送到LF/AS结构中，经过非线性的TST后，原上下文信息容易大量丢失。通过Lossless Forwarding（LF）和Adaptive Scaling（AS）来找回丢失的信息。

其中，LF的结构是将第（I）个CPT层的输入 $h_i^{(l)}$ 在输出时再加回来这样的话就不会损失掉原有的信息了。AS的结构是类似于RNN的门机制，训练一个门结构，AS通过门函数控制哪些信息被传递和传递的比例。

3、角色细粒度情感分析

剧本中角色情感分析的任务主要是对剧本每句对白和动作描述中涉及到的每个角色从多个维进行分析。因此，相比于常见的情感分析任务，有其自身的特征。其中碰到的难点包括一下几个大的方面。

角色人名识别

不同于通常的新闻，评论性文本，剧本中角色的名字很多时候都是非常规的，特别是一些玄幻类剧本角色的命名更加天马行空。

构建一个符合业务场景的情感维度模型
更加深层次的语义理解。

角色情感不仅仅取决于当前文本，可能需要对当前语义有深度依赖。一方面，前文依赖的长度可能较长，尽管很多深度模型本身能一部分解决长文本依赖的问题，但是对于窗口超过一定长度的语义理解仍然很吃力。另一方面，需要根据业务特点设计特定的网络结构以更好的捕获信息。

3.1 角色识别

由于需要对角色进行情感分析，因此首先的问题就是要识别剧本中的“角色”；同时，我们还需要识别出“角色”的类型。理论上我们需要这针对那些对剧情有推动力的“主，配角”进行分析，而忽略掉“打酱油”的“群众”。

“角色“人名识别属于NER任务。NER属于一个很经典的NLP领域，早期的HMM，CRF在很多业务领域都已经能够比较好的解决问题。深度学习时代，大家一般都使用Bi-LSTM+CRF的方案。但不同于通常的新闻，评论性文本，识别剧本角色名碰到的问题包括：

剧本中的名字很多时候是非常规的，特别是一些玄幻类剧本，角色的命名更是天马行空。
剧本的行文风格和筒仓的新闻类语料差别较大。

可以看出，通常的开源语料不能做为剧本角色人名识别的训练语料。这对使用深度模型造成了一定的障碍，而传统的HMM，CRF等模型在剧本这种复杂场景中效果很差。

当然剧本作为长文本，也有其自身在统计方面的优势，这是我们可以充分利用的。

首先，我们使用"新词发现"这样的概率模型，以充分利用剧本这种长文本在统计层面的优势。

深度模型方面，我们使用了Bi-LSTM+CRF和Lattice LSTM两个深度模型。Bi-LSTM+CRF是业界经典的方案，Bi-LSTM网络加上一个CRF层，能为模型输入一些专家经验。同时，为了避免分词带来的误差，我们使用了不同分词的方案，这样就不可避免的丢失了一些成词方面的信息。比如：“爱奇艺创新大厦”这种成词是有意义的，应该把这种信息带入模型中。所以，我们补充了Lattice-LSTM模型，以弥补“不分词”方案带来的问题。

两个深度模型能够进行有益的补充，但他们对训练语料和标注质量的要求都比较高，而领域语料的缺乏正是大家的痛点之一。一方面我们会进行一些高质量的人工标注，这个工作的代价比较大，工期较长，另一方面利用“新词发现”无监督模型的输出来自动化构建标注语料。一个模型的输出又能够作为另外模型的输入，这样就形成了内部的良性自循环。