Abstract
本文描述了参加TASS 2020情绪分析研讨会的情况,提出了两个策略
- 根据几种西班牙语tweet的情感分类
- 对6种基本情感进行细粒度的分类
提出基于单独的语言特征或者结合word-embedding。尝试了CNN和SVM,虽然没有达到最好的成绩,但是获得了task2的最高的精确率。以及一些具有竞争性的结果(competitive results)。虽然结果一般但是还是有实质性的好处,比如结果的可解释性。
Introduction
情感分析是自然语言处理的一项任务,包括对自然语言文本中主观意见的提取和分类。
任务:
task1:从西班牙语(欧洲西班牙语及其拉丁美洲变体)tweet中提取主观性的极性。分成positive、negative、neutral。
- sub-task1:单语言分类
- sub-task2:多语言分类
task2:基于多语言的情感分类,一共需要分成6个基础类。anger, disgust, fear, joy, sadness and surprise。
所有的数据都是不平衡的,任务一中netural比较多,任务而中others比较多。
方法:单独测试语言特征的可靠性或者结合经典的机器学习和深度学习模型。与统计方法相比,语言特征简化了结果的可解释性。研究问题如下:
- RQ1:语言特征的使用是否足以与基于统计方法的最先进的方法竞争?
- RQ2:语言特征是否可以与统计方法相结合,以提高结果的准确性,同时保持可解释性?
- RQ3:语言特征的可靠性是否受到同一语言不同文化背景的影响?
为了回答这些研究问题,我们使用一个为西班牙语自行开发的工具,从数据集中提取了语言特征。这些语言特征会单独的或者与word-embedding的CNN和sentence-embedding的SVM结合评估。
Corpus description
Materials and methods
Preprocessing stage
- lowercase
- 修改错误拼写
- 提取空格,制表符,换行符
- removing expressive lengthening
每条tweet都经过处理,同时保留原来的tweet,用来提取有关大小写字符的某些特征(表示强调)。
Linguistic feature extraction
使用UMUTextStats进行语言特征提取,一个自己研发的工具(LIWC)进行文本分析,包括进行语言查询(Linguistic Inquiry)和Word Count。
Models based on word-embeddings
word-embedding相比于传统的n-grams和one-hot vector有两个有点:
- 单词表示为密集的的向量而不是稀疏的向量,词义相似的单词的向量相似。
- word-embedding可以使用来自网络的语料库进行初始化。
three runs:
- LF+WE:linguistic features的多层感知器(Multilayer Perceptron)结合CNN的word-embedding
- LF:linguistic features的支持向量机(SVM)
- LF+SE:linguistic features结合sentence embedding
Result
Conclusions and further work
Acknowledgments