【论文阅读】Sentiment Classification情感分类-CSDN博客

0.Abstract

情感分类通常需要大量的标记数据，然而在现实能获得的标记文本大部分都是英语写的，这就使得那些主要以英语数据进行训练的情感分类器提供给非英语使用者的服务会比提供给英语使用者的服务要差，因为这些分类器更多的学习到了英语使用的情感特征，而没有很好的学习到非英语语种中的一些与英语使用所不同的情感特征。为了解决这一问题，本文提出了“跨语言情感分类”方法，该方法声称可以将从一个像英语这样有很多标签数据的源语言习得的情感分类器迁移到另一个缺少标签数据的目标语言。一个朴素的想法就是使用现成的机器翻译技术将一种语言翻译为另一种语言来实现迁移，比如说将所有英语的标签数据都翻译成中文，那么我们就获得了大量的中文标签数据，于是就可以利用这些新获得的标签数据来训练中文情感分类器了。然而这种方法的缺陷是它无法有效的发现目标语言中特有的情感特征，这是因为所使用的数据都是从源语言翻译过来的，因此通过这种方法迁移学习到的情感分类器在目标语言中的准确率会受到影响。本文提出的“跨语言情感分类”方法则引入了世界上几乎所有语言都通用的表情符号，本文通过进行表情符号预测来习得各语言的情感特征，将表情符号作为联系所有语言的桥梁。这一方法在实践中被证明是目前所有跨语言情感分类方法中表现最好的，即使对于那些目标语言的标签数据极其稀疏的情形，该方法也能保持较高的准确率。

1.Introduction

情感分类已经在NLP、网页挖掘、信息检索、人机交互等领域中成为了重要的研究课题。由于现有的情感分类技术已经可以做到有效的从文字推断出使用者的态度、情绪甚至是心理状况，该技术已经被融入到到各类博客、用户评价和论坛系统中，情感分类技术的主要落地应用有客户评价追踪、销售预测、产品排序、股市预测、民意调查、推荐系统、个性化内容推荐以及在线广告。

和其他文本内容一样，现有的情感分析主要都是基于英文文本的，尽管也有一些如日语的情感分析研究，但是总体来说非英语的情感分析现状是远远落后于英文文本的，原因很简单：现有可得的标签数据里面英文文本的数量远大于非英文文本，因此在训练情感分类器时就只能主要基于英文文本，学习到的也是英文的语言使用习惯。这就使得那些非英语使用者（占全球互联网使用者的76%）获得道德情感分析技术服务体验较差。

以往的跨语言情感分类采用了直接将现成的语料翻译为目标语言作为训练数据来使用的这种简单粗暴的方法，通过直接使用现成机器翻译技术来得到的语料被称为伪语料。在实际中这种方法的最大问题就是无法理解英语和其他语言之间的使用习惯代沟，我觉得主要带来两方面的问题，第一个是文中一直在提到的无法学习到目标语言的一些语用习惯（如文中列举的日语中“湯水のように使う”表示贬义，而英语中根本就没有这种用法“use it like hot water” ），另外一个文中没有提及的缺点是可能会学错（比如说英文中某种特殊的用法，别的语言中没有，但是直接翻译过去会导致情感分类器误以为其他语言也这么用），简单来说，直接翻译语料会带来“学少了”和“学错了”两个风险。另外传统的跨语言情感分类技术还会共用两种语言的词向量空间，比如说“cold”和“冷”会使用同一个词嵌入向量，也许在大多数情况下是没问题的，但是在少部分有语言特色的词上（我觉得尤其是那些多义词可能产生一语双关效果的词）会造成较大问题。在实践中，这种方法的表现性能也被证明不是很好，主要原因就是由于现成的机器翻译技术没有办法很好的解决好上述所描述的语言差异问题。那么为什么现有的机器翻译技术没有办法很好的解决语言差异问题呢，原因也很简单，因为现有的机器翻译技术所采用的方法就是基于2种语言的语料进行训练来学习他们共同的模式，因此也就学习不到语言特有的模式了。

而本文在2种语言之间搭建了一个新的桥梁，使得在机器翻译进行中可以捕捉到某种语言独有的情感特色，这个新的桥梁就是表情符号——一种被全球广泛使用的通用语言。本文将表情符号作为某个语句的标签，这样就等于是自动给大量的语料打上标签了，巧妙的解决了非英语预料缺乏标签数据的问题。所以表情符号的引入主要是解决了两方面的问题：（1）自带标签的特性使得几乎每种语言都可以获得到大量的由表情符号生成的带标签数据（2）表情符号的各语种通用性有效的解决了语言差异问题。

本文所提出了名为ELSA的新型跨语言情感分类框架。ELSA的基本思想是首先在每种语言中基于表情符号生成的标签数据进行模型训练，紧接着将所有这些语言分别训练出来的模型整合起来专门用来在数据最多的那种语言上进行训练，训练中会直接使用机器翻译。那么一个明显的疑问就是这里ELSA在训练中也是使用了机器翻译，那么和传统的方法又有些什么不同呢？注意到ELSA和传统方法的区别是，传统方法中直接将源语言的数据翻译为目标语言的数据，所以在全部的训练过程中根本就没有包含对被翻译的语言数据本身的训练，训练的都只有翻译过后的数据，这样就会损失一些语言本身的特性；而ELSA则是首先对每种语言本身在没有进行任何翻译的情况下进行了训练，因此就可以在模型中保留很多语言本身的特性。所以我觉得ELSA的最重要创新点还是在于利用表情符号生成标签数据。

实验结果表明，ELSA在情感分类任务上的准确率比现有的所有方法都要高，而且即使标签数据的规模在非常有限的情况下，ELSA依然能由较好的表现。为了测试ELSA的泛化性能，本文在实验中还将ELSA应用到了推特的数据集上进行评测，结果依然亮眼。本文因此列举了4条他们所认为的最重要的贡献：

（1）本研究是所有已知研究中首次引进表情符号来解决跨语言情感分类任务的研究，引进表情符号不仅能很好的缓解部分语言标签数据不足的问题，也能很好的解决语言差异问题

（2）本文使用了结合注意力机制的长短时记忆神经网络模型来从表情符号的使用中捕捉情感表达，从而可以将每种语言自身的情感特征融入到最终训练出来的跨语言情感分类模型中

（3）实验中同通过在不同数据集上的评测，证明了ELSA方法的有效性

（4）这种将表情符号作为沟通不同语言之间的思想可以为其他受到类似语言差异问题阻碍的文本挖掘问题提供可操作性的启发

2.Related Word

2.1表情符号

表情符号可以看作是一种对于情绪的压缩性表达，它被纳入了Unicode编码并在全球范围内被广泛使用。包括NLP、普适计算、人机交互、多媒体、互联网挖掘在内的很多领域都已经开始关注表情符号的大流行。已经有了许多关于表情符号跨平台、跨性别、跨语言和跨文化使用的研究。表情符号在情绪表达之外其实还有很多其他的作用，比如展现亲密关系、调整语气等，不过研究表明情绪表达是表情符号最主要的功能，也正因此本文才做出了将表情符号作为表征某句语句情感方向的尝试。

2.2文本情感分析

文本情感分析是NLP的一项经典任务，旨在从文本数据中挖掘出情感、观点、态度等主观信息。许多广泛使用的文本情感分析工具如SentiStrength和LIWC都简单的将一句话中每个词语的情感方向“加”起来来判断整句话的情感方向，比如说一句话“我觉得这个东西好讨厌”中“讨厌”是负性的情感词语，其他都是中性的情感词语，那么加起来就是负的，所以这句话就是负性的情感表达，但是对于一些交杂了两个方向情感表达的语句，这种简单方法就没有那么实用了，比如说“讨厌啦，人家喜欢你”中，“讨厌”是负性的情感表达而“喜欢”是正性的情感表达，显然简单的对于情感表达的方向进行相加并不能很好的得到这句话的情感表达方向。为了取得更好的情感分析效果，人们开始使用机器学习方法，尤其近些年来，深度学习和一些高级的神经网络算法开始大行其道，不过随之而来的问题就是标签数据的稀缺。本文并不是第一个将表情符号作为某条语句情感表征的研究，在表情符号出现之前世界还是颜文字的天下时就已经有研究者将这种表意符号作为标签来使用，不过他们是直接将这种符号生成标签数据，这样生成的标签数据被称为弱标签数据，之所以被称为弱标签数据是因为如此生成的标签可能会很不准确，将笑脸作为正性、将哭脸作为负性实际上还是没有脱离前面将某些词语固化为某种情感方向的模式，这样使用表情符号还是有一些潜在的可能会影响准确率的问题，首先是不同人群使用表情符号可能存在差异性，部分表情符号可能有多种含义（比如一些表情符号在某些情况下可能会带有嘲讽的含义），这种差异性可能存在于年龄段的差异、职业人群的差异，不同社交软件使用者的差异。另外表情符号可能也会存在日新月异的更新，种类变更以及语义发生迁移的情况。本文引入表情符号也受到了前人这样使用的启发，但是并非是直接将表情符号直接生成标签，而是而是通过在每种语言上首先生成各自的模型后再在如英语的源语言数据上训练出高质量的情感标签。换句话说，小语种的标签可以说最开始是弱标签，先用弱标签训练出许多包含各语言特色的弱模型，将所有的这些弱模型整合起来对富含数据的源语言进行情感标签预测，从而得到高质量的强标签。注意到这些强标签里是蕴含了小语种的语言特色的，然后在用这些强标签去训练某个小语种的模型，得到最终的强模型。

2.3跨语言文本分类

跨语言学习是解决网页挖掘、主题分类和情感分析中常用的用来解决不同语言数据不平衡的方法，研究者将跨语言学习归纳为了两个阶段：（1）将源语言和目标语言都编码为连续的表征（2）利用这些表征来对目标语言进行最终的分类任务。绝大多数研究都直接使用现成的机器翻译技术来嫁接源语言和目标语言，使得最终任务的准确率严重依赖机器翻译技术的效果，而现有的机器翻译无法很好的翻译各语言所特有的情感表达。而本文通过引入表情符号很好的解决了各语言标签数量不平衡和语言差异这两大问题。

3.ELSA

首先来准确的对于本文需要解决的跨语言情感分类问题进行准确的形式化定义。

目标：使用源语言（如英语）的标签数据来训练出模型用于对目标语言的数据进行情感分类。

$L_{S}$ ——源语言（如英语）的已标签数据

$L_{T}$ ——目标语言的已标签数据

$U_{S}$ ——源语言（如英语）的未标签数据

$U_{T}$ ——目标语言的未标签数据

$E_{S}$ ——源语言（如英语）的包含表情符号的未标签数据

$E_{T}$ ——目标语言的包含表情符号的未标签数据

一般而言 $U_{s}$ 和 $U_{T}$ 的规模要远大于 $L_{s}$ ，在实践中 $E_{S}$ 和 $E_{T}$ 都可以从社交网络中大量获得。

通过上述符号来进行形式化的描述，本文需要使用 $L_{S}$ ， $U_{S}$ ， $U_{T}$ ， $E_{S}$ 和 $E_{T}$ 来训练出一个模型，该模型可以分类出目标语言的文档所表达的情感方向。最后利用事先排除在外的小规模数据集 $L_{T}$ 来对模型进行评测。

下图是ELSA方法的完整流程图：

第（1）（2）步：在 $U_{S}$ 和 $U_{T}$ 上分别进行表征学习，利用词向量嵌入进行无监督学习，再对 $U_{S}$ 和 $U_{T}$ 进行预处理得到 $E_{S}$ 和 $E_{T}$ ，对于 $E_{S}$ 和 $E_{T}$ 进行有监督学习得到初始的模型

第（3）步：使用谷歌翻译将 $L_{S}$ 翻译为目标语言

第（4）（5）步：将 $L_{S}$ 和翻译为目标语言的 $L_{S}$ 分别喂到在（1）（2）步中得到的模型里，得到一些语句的表征

第（6）（7）步：将（4）（5）步中得到的语句表征聚合为文档表征

第（8）步：将（6）（7）步中得到的表征作为特征来预测每个文档的真实情感标签，通过这种有监督学习的方法获得最终的情感分类器

（1）—（8）即为情感分类器的训练阶段（9）（10）为情感分类器的使用阶段，一旦有了新的文档，就将它翻译为英语参照（1）（3）（5）（8）得到文档表征和情感标签，这里预测出的情感标签也就是分类器对于这篇新文档的情感方向的分类判断。

这里一个小问题就是当有了新文档后，为什么要翻译为英语走（1）（3）（5）路线，而不是不翻译直接走（2）（4）（6）路线呢，我觉得这是因为原本最终训练的分类器还是在源语言（如英语）上的，因为后来已经把各种小语种都整合到了英语上了，而且（1）中的初始模型可能也会由于标签多而比（2）的小语种模型效果要好。

3.1 表征学习

在训练情感分类器之前，首先要在文档中进行表征学习。简单粗暴的方法就是使用现成的词嵌入技术获得词的表征再通过对所有词向量加和平均得到整个文档的嵌入表示，然而这种嵌入方法不管是某种语言特有的模式还是跨语言的通用模式都无法学到。本文的改进方法就是通过预测表情符号来得到一个蕴含了情感信息的表征。这里是将表情符号作为一种标签来进行训练，需要注意的是，本文的方法并没有特别的把某个表情符号解释为正性或负性的情感表达，比如说并不会认为笑脸就表示正性的标签而哭脸就表示负性的标签，本文的方法将一个含有笑脸的未标签语句单纯的看成一个带有笑脸标签的语句，预测的时候也不是去预测这句话是正性情绪还是负性情绪，而是去预测这句话到底是带有笑脸标签还是哭脸标签，这种对于表情符号本身的预测就避开了引入对于表情符号进行解释所可能带来的歧义性。

下图就是ELSA的表征学习步骤中所使用的网络架构图：

首先基于 $U_{S}$ 和 $U_{T}$ （实验中采用了千万级的推特数据集）通过skip-gram算法（实验中所使用的窗口大小为5）将每个词都预训练到连续的向量空间中，那些在文档中经常邻近出现的词在这个向量空间中也会比较邻近，这就保留了词的语义信息，通过这种标准的Word2Vec算法就可以得到图中所示的词嵌入层。长短时记忆神经网络是循环神经网络的一个特例，它特别适合处理像文本这样的序列化数据，在迭代的每一步LSTM都会把当前的输入和以前步学到的知识结合起来。LSTM引入了一个门机制来决定何时更新隐藏层何时不更新隐藏层，这样就解决了传统RNN会面临的梯度爆炸问题。每个LSTM单元都包含一个记忆细胞和三个门（输入门、遗忘门、输出门）。输入门负责控制流入记忆细胞的流，输出门负责控制流出记忆细胞的流。记忆细胞会存储网络的序列化状态并且每个记忆细胞都有一个由遗忘门控制的自循环权重。

设 $x=[d_{1},d_{2},...,d_{L}]$ 表示一段去除了表情符号、长度为 $L$ 的文本，其中 $d_{i}$ 表示文本中第 $i$ 个词的词向量表示， $e$ 表示原文本中包含的表情符号，则在 $E_{S}$ 或 $E_{T}$ 中的一句话可表示为 $(x,e)$ ， $i^{(t)}$ 表示第 $t$ 步时输入门的状态， $f^{(t)}$ 表示第 $t$ 步时遗忘门的状态， $o^{(t)}$ 表示第 $t$ 步时输出门的状态， $c^{(t)}$ 表示第 $t$ 步时记忆细胞的状态， $h^{(t)}$ 表示第 $t$ 步时隐藏层的状态同时也可看作是主题向量。 $\bigodot$ 表示向量按位乘法。

LSTM第 $t$ 步的迭代公式如下：

为了能够捕捉到词语的前后语境，ELSA使用了双向LSTM来得到双向的主题向量，在实验中，隐藏层共设置了1024个单元，其中每个方向各512个：

接下来的注意力层通过使用skip-connection算法将先前两层双向LSTM层的输出和词嵌入层的输出连接作为该层的输入，于是一句话中的第 $i$ 个词就可以表示为 $u_{i}=[d_{i},h_{i1},h_{i2}]$ 。之所以设置注意力层是因为每个词对于整句话情感成分的贡献是不一样的。

设 $a_{i}$ 表示第 $i$ 个词语的权重， $W_{a}$ 表示注意力层的权重矩阵，则以下公式确定了 $a_{i}$ 的值

确定好每个词语的权重之后，一句话 $v$ 就可以被表示为各词语的加权和。

最后的softmax层接受输入 $v$ 并产生输出向量 $Y$ ，其中第 $i$ 个分量 $y_{i}$ 表示这句话会包含第 $i$ 种表情符号的概率， $w_{i}$ 和 $b_{i}$ 分别表示第 $i$ 个元素的权重和偏差，也就是模型需要学习的参数，计算公式如下：

通过最小化 $Y$ 和 $e$ 的交叉熵函数来获得模型参数，在实验中使用了参数为 $10^{-6}$ 的L2正则化。

3.2 训练情感分类器

现在每种语言都已经有了经过预训练的语句表征模型，也就是完成了（1）（2）步。

对于每一个英语文档 $D_{s}\in L_{s}$ ，都通过（1）中预训练好的文档表征模型来将每个语句进行向量化。然后再将每个语句聚合在一起得到一个文档的向量表示。正如不同词语对于一句话的贡献是不一样的，不同语句对于一篇文档的贡献也是不一样的，因此再次引入注意力机制，设第 $i$ 条语句的向量表示为 $v_{i}$ ，源语言文档的向量表示为 $r_{s}$ ，则 $r_{s}$ 可表示为各语句向量表示的加权和，设 $W_{b}$ 表示该注意力层的权重矩阵， $\beta _{i}$ 表示第 $i$ 条语句的权重，则权重的迭代计算公式如下：

使用谷歌翻译将 $D_{s}$ 翻译为目标语言 $D_{t}$ ，然后分别使用预训练好的文档表征模型来得到 $r_{s}$ 和 $r_{t}$ ，将这两个向量连接为 $r_{c}=[r_{s},r_{t}]$ ，最后将 $r_{c}$ 输入到softmax层中获得 $D_{s}$ 的真正情感标签，由于在最后的参数训练中结合使用了源语言和目标语言的信息，因此最后训练出来的模型就能够同时包含源语言和目标语言的语言特征。

在实验中，90%的数据被用作情感分类器的训练集，剩余10%作为测试集。

3.3 目标语言情感分类

在使用时需要对一篇新的文档 $L_{T}$ 进行分类，首先将它翻译为英语，接着它的原版文本和翻译版被分别通过与预训练的两种语言的文档表征模型处理生成向量表示 $r_{t}$ 和 $r_{s}$ ，接着将 $r_{c}=[r_{s},r_{t}]$ 输入情感分类器就可以得到 $L_{T}$ 的情感方向。

4.评测

4.1 数据集预处理

实验中使用了亚马逊的评论数据集来对ELSA方法进行性能评测的，该数据集也在众多其他的跨语言情感分类研究中被作为评测数据集，因此可以很方便的和其他研究进行效果比对。这个数据集中包含了英语、日语、法语和德语，涉及的商品领域为书籍、DVD和音乐。每一种语言和商品领域的组合中，数据集都包含了1000条正面评价和1000条负面评价。实验中选择了英语作为源语言，其他语言作为目标语言，因此目标语言和商品领域的组合共有9种。每一种组合进行评测时，都选取了2000条相关领域的英文评论和2000条相关领域的目标语言评论。这个数据集的所有数据都是带标签的，为了获得无标签的数据，实验人员收集了从2016年9月到2018年3月之间的上述4种语言的推特。之所以选择推特是因为推特上有大量的表情符号。对于每种语言，实验中只考虑被使用次数排名前64位的表情符号。这些无标签数据被用作产生文档表征模型。

4.1.1 语句拆分

在很多时候同一条推特里面会包含好多种不同的表情符号，因此实验人员将每条推特都拆分为了多条语句，使得每天语句中包含的表情符号唯一，这样就可以使得最终的分类任务成为简单的单标签分类任务而不是复杂的多标签分类任务，这样可以减轻计算的负担。

4.1.2 过滤

接着是去重以及去除带有URL链接的推特，从而防止引入一些不可控的外部词义信息（因为URL里的语法语义可能会比较怪）。

4.1.3 词根化

接着将所有文本降为小写字母，并改写为最简词根表示（如cooooool改写为cool）来确保计算机能够将相同死于的不同形式识别为同一个词语。由于日语和中文一样没有空格，所以在处理日语时进行了一步通过MeCab日语分词工具进行分词，同时还将语句种的代词给替代了回去，不然有语句单独拎出来看会完全不知道指代的是什么。

经过上述3步预处理后便得到了最终的 $E_{S}$ 和 $E_{T}$ ，各语言原始数据集的大小和经过预处理后的数据集大小如下表所示，可以看到上述3步过滤掉了大量的语句或词语：

最终的这些数据集以7:2:1的比例被划分为了训练集、校验集和测试集

4.2 实现细节

整个框架都是通过Tensorflow实现的，在最优化过程中采用了Adam算法（该算法的2个最重要的参数分别被设置为了0.9和0.998），梯度下降的学习率被设置为了0.01

4.3 准确率比较

从下表可以看到，ELSA在各种语言和领域的组合都要好于其他的方法。

4.4 表情符号对于性能提升的贡献比重

之所以要考察表情符号的引入对于各项性能是否有贡献是因为ELSA方法并不是单单引入了表情符号，它有许多步骤都与其他方法不一样，因此很难说到底是哪一步对于性能提升有贡献以及贡献有多大。

4.4.1 表情符号对于整体表现的提升

要考察表情符号是否给整体性能带来了提升，那么最直观的想法就是把ELSA中把引入表情符号的步骤都删去看看有什么变化。因此实验又分别实现了三种ELSA，其中N-ELSA是完全不用任何表情符号的数据，T-ELSA是只用目标语言的表情数据而去除源语言的表情数据，S-ELSA是只用源语言的表情数据而去除目标语言的表情数据。最终的性能比较如下表所示：

可以看到所有多少去掉一些表情符号数据的方法的表现性能都是低于ELSA方法的，所以说这就证明了表情符号对于ELSA方法的性能提升是有贡献的，另外可以看到去掉全部表情数据的ELSA方法性能是最差的，而S-ELSA总体上要比T-ELSA的性能要高，我觉得这可能是因为目标语言的表情数据要比源语言的表情数据要少，这反过来也说明了使用的表情数据越多，性能就越好。统计学的McNemar检验也表明不同方法之间的表现差异是显著的。

4.4.2 表情符号对于表征学习的提升

为了考察表情符号对于表征学习性能的提升，首先要明确表征学习的性能指标到底是什么，表征学习的目标实际上就是要将词语映射到一个连续的向量空间当中，希望语义相近的词语尽可能在映射后的向量空间中也邻近，因此对于表征学习性能指标的考察就可以看作是这些语义相近的词语在映射后到底有没有也比较邻近。实验人员选取了MPQA中被广泛认可的情感较为明确的50个词，分别使用带表情符号的表征学习和不带表情符号的传统Word2Vec进行学习，得到两个不同的向量空间，为了直观的显示两者的不同，将每两个词之间的向量（这里使用的是MPQA中标准的向量表示）都用cosine求一下表示两个词之间的相似度，颜色越深的表示数值越小也就是相似度越高，可以看到最中间一条都是黑色因为都是自己和自己求余弦都是0。如果说映射后的词语向量在向量空间中邻近的都是语义较为相近的，那么靠近当中黑线的区域的颜色也应该较深，可以看到下图中右图符合这个特征，而左图则不如有那么鲜明。右图正是使用了表情符号的表征学习，而左图则是未使用表情符号的传统Word2Vec，这就直观的表明了表情符号对于表征性能的提升是有贡献的。

4.4.3 表情符号对于文本理解的提升

论文给出了如下图所示的使用表情符号和没有使用表情符号对于注意力机制性能的提升，也可以看作是对于文本理解的提升。下面的图中每句话中的词语都被不同颜色进行了标记，颜色越深表示这个词在这句话中的情感表现权重越高，而每句话前面的数字则是这句话对于这篇文档的情感表现的权重，对于使用了表情符号的方法，在最前面还给出了对于这句话可能会使用的表情符号前3名的预测。这篇文档许多话看上去会有点语句不通顺，因为这是从一份日语语料中翻译过来的。可以看到在没有使用表情符号的N-ELSA方法中，许多中性词如"saw","year"都被赋予了较高的权重，而在使用了表情符号的注意力分配中，被分配较高权重的词语大多都是比较带有情感色彩的，另外N-ELSA给第5句话赋予了最高的权重，然而第5句话直观上并没有很明显的感情色彩，而使用了表情符号的ELSA在语句的权重分配上明显要更贴近正常人的理解。

5.ELSA的可扩展性和泛化性能

5.1 数据规模对于ELSA性能的影响

下图为ELSA在减少目标语言的未标签数据规模和英语的标签数据规模的情况下性能的表现，可以看到从100%降到20%的过程中，所有语言所有任务的表现基本上都还算稳定，没有特别大的波动。另外在以下所有情况下，ELSA都比现有的所有方法表现要好。

5.2 ELSA的泛化性能

为了验证ELSA的泛化性能，实验人员将ELSA方法同时应用到了亚马逊评论数据集和推特语料中，在使用了更小的数据规模和采用和其他实验完全相同或更差的条件下，ELSA在其他领域的情感分类中依然击败了现有的所有其他，证明了它的泛化性能很强大。

6 总结

本文提出了跨语言情感分类任务的新方法ELSA，它引入了表情符号作为沟通不同语言之间的桥梁，表情符号的引入同时解决了目标语言标签数据稀缺以及语言差异问题，语言差异问题的解决体现在它可以同时学习到源语言和目标语言的语言特征。实验证明了即使是在减少数据规模的情况下，ELSA都要比现有的其他所有方法表现要好。

7 My Opinion

我觉得本文的技术虽然是用在了跨语言情感分类，不过正如本文所提及的传统的跨语言情感分类之所以表现不佳是由于现成的机器翻译技术无法很好的解决语言差异问题，那么我觉得这个思想既然可以很好的解决跨语言情感分类问题，那么是不是可以反过来去改进现有的机器翻译技术使得它在语言差异问题上表现的更好呢？

另外本文使用的是结合表情符号的语料来作为多语言之间沟通的桥梁，那么我就此引申联想一下，是不是可以结合人脸识别技术来将人们日常的视频资源作为训练数据，通过人脸识别技术捕捉人此时的情绪，然后使用语音识别技术转换为文字，再进行训练（同时还可以结合语调来判断情绪），我觉得这类资源是不是在网络上是更加充足的呢，而且实际上这类资源就不是只有英文的了，而是各种语言都有，如果人脸表情识别和语音识别技术的准确率足够高了，那么这种数据实际上也不需要人工进行标注，每一段话该打上正面还是负面情绪的标签都可以由人脸识别和语音识别自动完成了。

本文提到了他们在实际收集推特的过程中发现由于经常有推特会包含很多种表情符号，于是为了使得任务成为方便计算的单标签分类任务而非复杂的多标签分类任务，他们将每条推特都拆分成了若干语句使得每条语句都只包含唯一的表情符号。那么在这种拆分中就可能会出现问题，一个问题是如何判定某个表情符号应该被划分到哪个部分，另一个问题是如果有好几个不同的表情符号连用，那么到底该留下哪个表情符号。我觉得不同的表情符号的组合实际上完全可以看是一个新的表情符号，这也意味着实际上表情符号的种类会很庞大。当然一个比较保险的做法可能就是直接无视那些包含了连用表情符号的推特。

如本文中所给出的一个例子中所示，基本上每条语句都预测会使用“笑哭了”这个符号，也就是说不管是正面还是负面还是没有什么情感，“笑哭了”这个符号已经含义过于丰富，都可以使用，所以我觉得这个符号可能给最终情感分类的贡献会比较低，是不是可以考虑把它去掉不考虑，这样反而可以提升其他有较为确切含义的表情符号的份量，没准可以提升整体性能。