Financial Sentiment Analysis: An Investigation into Common Mistakes and Silver Bullets

Title: Financial Sentiment Analysis: An Investigation into Common Mistakes and Silver Bullets
Conference: COLING 2020

一、背景与研究问题

近年来,自然语言处理在金融领域得到了广泛的应用,包括股票市场/外汇市场预测、波动率建模、资产配置、业务分类构建、信用评分、首次公开发行估值(IPO)等。处理文本输入的方法主要有两种思路:第一种是通过神经网络直接编码金融文本,并使用高维空间表征学习下游任务(Xu和Cohen, 2018);第二种方法是分析具有关键语言特征的金融文本,如内容语义(Keith and Stent, 2019)或投资者情绪(Malandri et al., 2018),以达到可解释性的目的。
金融情绪分析(FSA)的目标是将一篇金融文本分类为表达对某些论点的看涨或看跌意见。其面临的主要挑战包括:
● 缺乏大规模训练数据,
● 涉及专家知识,标注困难
● 金融领域的应用需要谨慎地对待情感,需要更高的可解释性

本文的研究问题:

RQ1:不同的情绪分析方法是否会犯相同的错误?
RQ2:不同的领域上,常用的情感分析指标(如F1,Accuracy)是否一致、可靠?
RQ3:模型在金融领域文本上效果下降的原因是否与其他领域相似?
如果是,则可以通过较为通用的领域适应方法改善,否则我们怀疑金融情感的理解比其他领域需要更多的资源(行话、时间、复杂引用)

二、模型与数据

情感分类模型一般采用词表方法、监督训练方法或者二者混合方法。本文对比了这三大类下的8个模型:
■ 词表方法
○ OpinionLex:收集了大约6800个带有情感的词汇。如果一个句子中积极词汇的出现次数多于消极词汇,那么模型简单地将其归类为积极,反之亦然;
○ SenticNet:一个通用的情感知识库(Cambria et al., 2020),不仅包含单词条目,还包含短语和多单词概念;作者将它与一组依赖语法模式结合使用,以确定每个句子的极性
○ L&M Dictionary:一个为分析金融文本而手工构建的词汇表;
■ 机器学习方法
○ SVM
○ fastText
■ 深度学习方法
○ bi-LSTM
○ S-LSTM
○ BERT

对两个数据集进行情感分析以进行比较:(1)商业评论领域的Yelp数据集;(2)金融领域的StockTwits情绪(StockSen)数据集,由作者在StockTwits上收集,该平台允许用户给自己的帖子贴上看涨(积极)或看空(消极)的标签,这样能够以“众包”的方式收集到带有高质量情感标签的金融文本。
在这里插入图片描述

三、结果分析

作者不仅统计了不同模型的效果,还利用相关系数来表示不同模型预测结果间的相似程度,即,如果两种方法对每个样本都给出相反的预测,它们的相关性将是-1,如果预测完全相同,它们的相关性将为1。下图分别展示了各模型的效果和预测结果相关程度。
在这里插入图片描述在这里插入图片描述
考虑到使用的StockSen数据集较不平衡,除了F1和准确率外,作者还选取了MCC(Matthews Correlation Coefficient)作为评价指标之一。Table 2的结果显示出,相比词表方法,机器学习和深度学习方法产生的假正错误比假负错误更多;综合来说BERT以其强大的表示能力在两个数据集上都取得了不错的效果。
Figure 2 的结果非常有趣,首先,作者观察到同类型的方法之间形成了一定程度的“聚集”,如L&M和OpinionLex、SVM和fastText、几种深度学习方法间的结果相关性都较高,但SenticNet是个例外,作者认为这可能是由于它是唯一使用句法规则来进行分类的方法;其次,相关性最高值(SVM与fastText)仅仅只有0.56,作者进一步对正负样本分别进行了统计(Figure 2 右半,上三角为正样本,下三角为负样本),发现多数模型对负样本的预测差异较大
综上,作者对研究问题进行了总结回答:
对于RQ1,从Figure 2 的结果可以看出,不同模型所犯的错误不尽相同,尤其是对负样本的预测差别较大;
对于RQ2,从Table 2 的结果来看,不同的评价指标对“最佳模型”的判定不同,因此只根据单一指标来评判模型是危险的;
对于RQ3,对比几种词表方法,专为金融领域设计的L&M词表在StockSen数据集上的效果并不比OpinionLex突出,以MCC为评价指标甚至更差,所以简单地使用域适应的词汇表并不一定能解决FSA的问题。

四、错误分析

为了深入探究模型产生错误的原因,作者挑选了部分样本进行分析,包括:少于4个模型作出正确预测的237个正样本,以及所有模型都预测错误的147个负样本。这其中,大部分的错误都是可解释的

1、非现实语气 Irrealis Moods

(1)条件语气 Conditional mood
“if there was any better opportunity to exit long term holdings […] It would be this month”
这个例子传达出了对未来的悲观态度,但句子中的“better opportunity”会产生误导;

(2)虚拟语气 Subjunctive mood
“Would be shocked if this closes under 1900 tmrw”
“would be amazing if it touch 210 tomorrow”
第一个句子意味着评论者认为指标不会低于1900,第二个句子则表示评论者认为指标不会达到210,虚拟语气往往也包含了与情感关键词本身相反的情感极性;

(3)祈使语气 Imperative mood
“2 negative articles paid for by short sellers. Dont believe them!”.
评论者要求读者不要相信卖空者写的负面文章,因此他对股票持积极态度。

2、修辞手法 Rhetoric

(1)否定断言 Negative assertion
“In the market for a iwatch and airpods too. What recession?!”
“Who buys at 205? Not me.”
这一类别通常是问句+断言的形式,通过否定的回答翻转了问句中的情绪倾向;

(2)拟人 Personification
“$TSLA fighting for its life here”
这个例子用“为他的生命而战”来描述一个公司股价的韧性,拟人化可以通过词性标注和实体识别进行提示;

(3)讽刺 Sarcasm
“$AMZN the Amazon board is hilarious”
讽刺手法在评论数据中相当常见,用“beautiful”或“hilarious”去形容董事会,这种不寻常的搭配往往预示着讽刺;

3、依赖观点 Dependent Opinion

情感表达的规范形式是传达评论者本身的意见,然而在金融类评论中,使用第三人称的情况很普遍,因此他们的情感倾向取决于别人的意见,例如
“[…] I think many underestimate it. spring how”
“any bear who says the company will fail is ignorant, […]”
这两个句子的负面词都表达对他人观点的否定,容易让模型造成误判;

4、未指明的方面 Unspecified Aspects

“$SOLY Allergan should be concerned that cool sculpting will be rendered obsolete”
评论者认为Allergan(一家制药公司)的技术已经过时,但他实际上是在评价其竞争对手Soliton,因此评论者给出了“积极”的标签,情绪分析模型需要学会判断情绪指向的对象;

5、不能识别的词语 Unrecognized Words

由于金融推文来自专业的微博平台,用户互动具有非正式性,且有字符限制,投资者有时倾向于使用难以与其语义联系起来的词汇,包括未识别的实体、缩写和行话。
● 实体:““$AAPL time to upgrade my 6s.”,6s通常表示6秒,但在这里指的是 iPhone 6s,检测这些实体有时需要运用金融知识和常识;
● 缩写:如“EOW”表示“end of week”,“tmrw”表示“tomorrow”等等;
● 行话:“the stock formed a head and shoulders on a 5 day”,“head”和“shoulder”是来自技术分析图的术语,表明近期有下降趋势,他们通常并非OOV(out-of-vocabulary)词汇,但具有特殊的情感倾向;

6、外部信息 External Reference

引用文本中没有的外部事实和知识是很常见的,与实体识别不同的是有些例子还需要逻辑或时间上的推理才能理解情感。例如,“$TSLA 200 tomorrow XD”,我们必须利用该评论的时间戳(2019-06-20)与其当前价格(219.62)才能知道"明天200"是一个下行的、负面的预测。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值