Financial Sentiment Analysis: An Investigation into Common Mistakes and Silver Bullets-CSDN博客

本文链接：https://blog.csdn.net/misaki_min/article/details/123732079

Title： Financial Sentiment Analysis: An Investigation into Common Mistakes and Silver Bullets
Conference： COLING 2020

一、背景与研究问题

近年来，自然语言处理在金融领域得到了广泛的应用，包括股票市场/外汇市场预测、波动率建模、资产配置、业务分类构建、信用评分、首次公开发行估值(IPO)等。处理文本输入的方法主要有两种思路：第一种是通过神经网络直接编码金融文本，并使用高维空间表征学习下游任务(Xu和Cohen, 2018)；第二种方法是分析具有关键语言特征的金融文本，如内容语义(Keith and Stent, 2019)或投资者情绪(Malandri et al.， 2018)，以达到可解释性的目的。
金融情绪分析(FSA)的目标是将一篇金融文本分类为表达对某些论点的看涨或看跌意见。其面临的主要挑战包括：
● 缺乏大规模训练数据，
● 涉及专家知识，标注困难
● 金融领域的应用需要谨慎地对待情感，需要更高的可解释性

本文的研究问题：

RQ1：不同的情绪分析方法是否会犯相同的错误？
RQ2：不同的领域上，常用的情感分析指标（如F1，Accuracy）是否一致、可靠？
RQ3：模型在金融领域文本上效果下降的原因是否与其他领域相似？如果是，则可以通过较为通用的领域适应方法改善，否则我们怀疑金融情感的理解比其他领域需要更多的资源（行话、时间、复杂引用）

二、模型与数据

情感分类模型一般采用词表方法、监督训练方法或者二者混合方法。本文对比了这三大类下的8个模型：
■ 词表方法
○ OpinionLex：收集了大约6800个带有情感的词汇。如果一个句子中积极词汇的出现次数多于消极词汇，那么模型简单地将其归类为积极，反之亦然；
○ SenticNet：一个通用的情感知识库(Cambria et al.， 2020)，不仅包含单词条目，还包含短语和多单词概念；作者将它与一组依赖语法模式结合使用，以确定每个句子的极性
○ L&M Dictionary：一个为分析金融文本而手工构建的词汇表；
■ 机器学习方法
○ SVM
○ fastText
■ 深度学习方法
○ bi-LSTM
○ S-LSTM
○ BERT

对两个数据集进行情感分析以进行比较：(1)商业评论领域的Yelp数据集；(2)金融领域的StockTwits情绪(StockSen)数据集，由作者在StockTwits上收集，该平台允许用户给自己的帖子贴上看涨(积极)或看空(消极)的标签，这样能够以“众包”的方式收集到带有高质量情感标签的金融文本。
在这里插入图片描述

三、结果分析

作者不仅统计了不同模型的效果，还利用相关系数来表示不同模型预测结果间的相似程度，即，如果两种方法对每个样本都给出相反的预测，它们的相关性将是-1，如果预测完全相同，它们的相关性将为1。下图分别展示了各模型的效果和预测结果相关程度。
在这里插入图片描述
考虑到使用的StockSen数据集较不平衡，除了F1和准确率外，作者还选取了MCC（Matthews Correlation Coefficient）作为评价指标之一。Table 2的结果显示出，相比词表方法，机器学习和深度学习方法产生的假正错误比假负错误更多；综合来说BERT以其强大的表示能力在两个数据集上都取得了不错的效果。
Figure 2 的结果非常有趣，首先，作者观察到同类型的方法之间形成了一定程度的“聚集”，如L&M和OpinionLex、SVM和fastText、几种深度学习方法间的结果相关性都较高，但SenticNet是个例外，作者认为这可能是由于它是唯一使用句法规则来进行分类的方法；其次，相关性最高值（SVM与fastText）仅仅只有0.56，作者进一步对正负样本分别进行了统计（Figure 2 右半，上三角为正样本，下三角为负样本），发现多数模型对负样本的预测差异较大。
综上，作者对研究问题进行了总结回答：
对于RQ1，从Figure 2 的结果可以看出，不同模型所犯的错误不尽相同，尤其是对负样本的预测差别较大；
对于RQ2，从Table 2 的结果来看，不同的评价指标对“最佳模型”的判定不同，因此只根据单一指标来评判模型是危险的；
对于RQ3，对比几种词表方法，专为金融领域设计的L&M词表在StockSen数据集上的效果并不比OpinionLex突出，以MCC为评价指标甚至更差，所以简单地使用域适应的词汇表并不一定能解决FSA的问题。

四、错误分析

为了深入探究模型产生错误的原因，作者挑选了部分样本进行分析，包括：少于4个模型作出正确预测的237个正样本，以及所有模型都预测错误的147个负样本。这其中，大部分的错误都是可解释的。

1、非现实语气 Irrealis Moods

（1）条件语气 Conditional mood
“if there was any better opportunity to exit long term holdings […] It would be this month”
这个例子传达出了对未来的悲观态度，但句子中的“better opportunity”会产生误导；

（2）虚拟语气 Subjunctive mood
“Would be shocked if this closes under 1900 tmrw”
“would be amazing if it touch 210 tomorrow”
第一个句子意味着评论者认为指标不会低于1900，第二个句子则表示评论者认为指标不会达到210，虚拟语气往往也包含了与情感关键词本身相反的情感极性；

（3）祈使语气 Imperative mood
“2 negative articles paid for by short sellers. Dont believe them!”.
评论者要求读者不要相信卖空者写的负面文章，因此他对股票持积极态度。

2、修辞手法 Rhetoric

（1）否定断言 Negative assertion
“In the market for a iwatch and airpods too. What recession?!”
“Who buys at 205? Not me.”
这一类别通常是问句＋断言的形式，通过否定的回答翻转了问句中的情绪倾向；

（2）拟人 Personification
“$TSLA fighting for its life here”
这个例子用“为他的生命而战”来描述一个公司股价的韧性，拟人化可以通过词性标注和实体识别进行提示；

（3）讽刺 Sarcasm
“$AMZN the Amazon board is hilarious”
讽刺手法在评论数据中相当常见，用“beautiful”或“hilarious”去形容董事会，这种不寻常的搭配往往预示着讽刺；

3、依赖观点 Dependent Opinion

情感表达的规范形式是传达评论者本身的意见，然而在金融类评论中，使用第三人称的情况很普遍，因此他们的情感倾向取决于别人的意见，例如
“[…] I think many underestimate it. spring how”
“any bear who says the company will fail is ignorant, […]”
这两个句子的负面词都表达对他人观点的否定，容易让模型造成误判；

4、未指明的方面 Unspecified Aspects

“$SOLY Allergan should be concerned that cool sculpting will be rendered obsolete”
评论者认为Allergan（一家制药公司）的技术已经过时，但他实际上是在评价其竞争对手Soliton，因此评论者给出了“积极”的标签，情绪分析模型需要学会判断情绪指向的对象；

5、不能识别的词语 Unrecognized Words

由于金融推文来自专业的微博平台，用户互动具有非正式性，且有字符限制，投资者有时倾向于使用难以与其语义联系起来的词汇，包括未识别的实体、缩写和行话。
● 实体：““$AAPL time to upgrade my 6s.”，6s通常表示6秒，但在这里指的是 iPhone 6s，检测这些实体有时需要运用金融知识和常识；
● 缩写：如“EOW”表示“end of week”，“tmrw”表示“tomorrow”等等；
● 行话：“the stock formed a head and shoulders on a 5 day”，“head”和“shoulder”是来自技术分析图的术语，表明近期有下降趋势，他们通常并非OOV（out-of-vocabulary）词汇，但具有特殊的情感倾向；