FinLlama: Financial Sentiment Classification for Algorithmic Trading Applications

摘要

网上有多种金融新闻来源,这些来源影响市场动向和交易者决策。这突显了除了拥有适当的算法交易技术外,还需要准确的情感分析,以便做出更明智的交易决策。标准的基于词汇表的情感分析方法已经在辅助金融决策方面展示了其威力。然而,它们已知会遭受与上下文敏感性和词序相关的问题。大型语言模型(LLMs)也可以在这种情况下使用,但它们不是特定于金融的,并且往往需要大量的计算资源。为了促进特定于金融的LLM框架,我们引入了一种基于Llama 2 7B基础模型的新方法,以便从其生成性质和全面的语言操作中受益。这是通过在一小部分受监督的金融情感分析数据上对Llama2 7B模型进行微调来实现的,以便共同处理金融词汇和上下文的复杂性,并进一步为其配备基于神经网络的决策机制。这种被称为FinLlama的生成器-分类器方案,不仅训练于分类情感价值,还量化其强度,从而为交易者提供了对金融新闻文章的细微洞察。此外,通过LoRA优化的参数高效微调实现了对可训练参数的优化,从而最小化了计算和内存要求,而不牺牲准确性。模拟结果表明,所提出的FinLlama能够提供一个框架,用于增强的投资组合管理决策和增加市场回报。这些结果支持FinLlama构建高回报投资组合的能力,即使在动荡时期和不可预测的市场事件中也表现出增强的韧性。

索引术语 - 大型语言模型,金融,情感分析,算法交易,参数高效微调

I. 引言


算法交易在量化金融中的日益突出,使得需要从具有多种模态的大量数据流中获取可靠和可操作的AI辅助智能。特别感兴趣的是生成性AI,因为它能够从新闻、收益电话、财务报告和其他文本来源等非数值来源中提炼洞察力。在这种情况下,情感分析承诺弥合由地缘政治和社会经济事件、人类行动和定量交易引起的市场动向之间的差距。

情感分析基于对未标记文本数据中存在的观点的量化,并旨在对整体观点进行分类,看它是积极的、消极的还是中性的。当应用于大规模信息来源时,这可能会产生对宏观趋势整体方向的理解,这对于人类分析师来说是一项既具挑战性又耗时的任务。重要的是,在线文本来源中包含的情感可以推动市场动向;这些信息对于那些拥有工具来利用它的人们来说,具有内在的优势和竞争优势。

尽管概念上有好处,但金融文本的异质性、微妙性和广阔性在提取既准确又可操作的情感时呈现出独特的挑战。例如,“牛市”和“熊市”在一般词汇中是中性的,但在金融市场中,它们各自的内涵严格来说是积极的或消极的[1]。这突显了需要上下文感知的情感提取,并强调了金融应用中自然语言处理(NLP)的复杂性。

为了解决这些问题,我们考虑了一个两重基本问题:
• 大型语言模型(LLMs),已经在NLP的多个领域引起了革命,能否特别定制用于金融领域的情感分析,特别是用于算法交易?
• 这种定制能否以不需要通常与NLP模型相关的大量计算资源的方式实现,从而使这种方法对拥有标准计算资源的更广泛受众可访问?

我们提出的FinLlama就是这样一种解决方案,通过在专门的、标记的和公开可用的金融新闻数据集上对预训练的LLM(即Llama 2 7B [2])进行微调来获得。FinLlama的最终目标是提高金融情感分析的性能,同时利用参数高效微调(PEFT)和通过LoRA [3]实现的8位量化,以最小化资源利用。

这项工作的主要贡献包括:


• 针对性微调:我们的方法不是利用一个总体模型来处理多样化的金融任务,而是利用基础预训练的Llama 2模型,通过在其输出处添加SoftMax分类层进行针对性的微调,专门用于情感分类。

• 高效的资源利用:我们的方法确保即使是标准的计算资源,没有高端GPU,也可以使用。通过预训练的Llama 2模型和针对性的参数高效微调,我们大大减少了与现有方法相比的计算需求,从而弥合了学术基准和实际应用之间的差距。
• 基准测试和现实世界的应用:微调LLMs在金融领域的成功也突显了投资组合构建领域尚未得到充分解决。为此,我们将FinLlama提取的情感信号集成到一个长短仓投资组合中,这使我们能够获得包括累积回报和夏普比率在内的特定于金融的现实世界指标。

II. 相关工作


金融中情感分析的潜力最早由Fama在1970年提出,他引入了有效市场假说(EMH)的概念,该假说认为股票价格会响应意外的基本面信息和新闻而变化。在此之前,金融领域采用了基于词典的方法进行情感分析。这些方法基于特定关键词分析来自新闻文章或财务披露的文本内容,并将其与已建立的情感评级相联系。然而,可用信息的数量和丰富性的指数级增长为机器学习提供了肥沃的土壤,包括朴素贝叶斯和支持向量机等技术。

与此同时,深度学习的进步对自然语言处理(NLP)研究起到了推动作用,并催生了利用神经网络处理NLP任务的开创性工作。最近,注意力机制和变换器网络的引入使得研究从传统的递归和卷积方法转向,这些传统方法通常用于深度学习任务。这导致了基于变换器的模型的发展,例如BERT,由于其对语言上下文的理解,已被广泛用于情感分析。然而,BERT在金融领域的性能遇到了限制,主要是因为它没有专门针对金融数据集进行训练。此外,为了微调目的所需的大量数据对金融应用构成了相当大的挑战,在金融领域这样的数据可能不易获得。

最近,针对金融文本进行微调的BERT版本FinBERT显示出了对金融情感分析任务有希望的结果。然而,FinBERT仍然存在一些限制,例如对数值的不敏感,以及由于其相对较小的规模(1.1亿参数),随着句子复杂度的增加,其分类准确性会下降。FinGPT和Instruct-FinGPT旨在通过使用Llama 7B作为其基础模型来增强其表达能力。然而,FinGPT并未针对金融情感分析任务进行优化,而Instruct-FinGPT只能对情感价值进行分类,但不能量化情感类别的强度。

据我们所知,BloombergGPT是唯一预训练的特定于金融的大型语言模型(LLM),因为Bloomberg能够使用40年收集的数据来训练模型。尽管该模型在金融情感分析上表现出色,但训练此类模型所需的资源是巨大的(130万GPU小时,成本为500万美元),而大部分训练数据是保密的,不公开可用。这与我们提出的方法不同,我们的方法专注于在最小化训练语料库和计算资源的同时,实现高分类准确性。这是通过在小规模的金融数据集上对预训练的通用大型语言模型进行微调来实现的。

II. 方法论


我们的工作旨在利用通用大型语言模型(LLMs)强大的表达能力和对上下文的理解,使其特定于金融领域。这是通过在特定的金融数据语料库上对最先进的(SOTA)Llama 2 7B模型进行微调来实现的。我们的模型在金融情感分析上的有效性通过一组与最终投资组合构建紧密相关的新基准得到了证明,这是金融分析的最终目标。

A. 对Llama 2模型进行微调


尽管预训练的LLMs具备推理、翻译、总结和文本生成等一系列能力,但当应用于特定任务,如情感分析时,它们往往面临挑战。在金融领域,这种局限性变得更加关键,因为金融新闻文章中的语言细微差别、媒体炒作和文章的广泛长度带来了额外的重大挑战。

为了应对这些挑战,我们的工作重新审视了LLMs的基本原则,以便将其与金融情感分析任务对齐。这是通过使用四个标记的金融文本数据集作为训练数据来微调Llama 2模型来实现的。在金融数据上的这种训练使模型具备了理解金融领域中存在的语言细微差别的能力。此外,在基础模型的输出处添加了一个SoftMax分类层,允许所提出的微调模型为三个标签:积极、消极或中性产生SoftMax输出。这使得将模型的主要功能从文本生成转变为情感分类成为可能。

1) 训练数据集:我们的训练数据是四个公开可用的标记金融新闻数据集的组合,共包含34,180个标记样本。每个样本都被标注为三个标签之一:积极、消极和中性。
2) 模型训练:我们的FinLlama模型首先使用Llama 2 7B模型进行初始化,然后在5个周期上进行微调。训练过程采用了AdamW优化器,因为它有效地将权重衰减与优化步骤分离,从而实现了更有效的训练。初始学习率被刻意保持较小,因为Llama 2 7B模型已经在大量数据上进行了预训练,而预热比例和权重衰减作为防止过拟合的关键技术,鉴于我们的微调数据集的有限大小,这一点尤为重要。

此外,在微调过程中采用了LoRA实现,以最小化可训练参数的数量,同时实现高性能和稳健性。通过LoRA实现,可训练参数的数量被设置为4.2M,仅占Llama 2 7B模型总参数数量的0.0638%。这使得我们的微调过程可以在单个A100(40 GB)GPU上实现,从而避免了对过多计算资源的需求。

B. 提出的框架


我们的目标是使用特定于金融的实际世界指标,来评估我们提出的FinLlama模型与其他已建立的情感分析方法之间的性能表现。为此,我们采用了图2所示的框架。在该框架中,我们已经准备好了经过微调的Llama 2模型。

数据收集与处理。

为了构建合适的多空(L/S)投资组合,我们收集了文本数据和市场数据。在文本数据方面,我们从2015年到2021年间的在线来源收集了204,017篇文章。这些来源因其可靠性、声誉、无偏见以及对大型公司的关注而被选中。同时,我们从雅虎财经收集了同期的金融市场数据。收集的市场数据包含了我们投资宇宙中的500家公司(标普500)的每日股票回报,每家公司有1,672天的股票回报数据。然后,我们对文本数据进行了命名实体识别(NER)和文本预处理,以去除不相关的文章,并确保文章与我们的情感分析方法兼容。

情感分析。

总共应用了五种情感分析方法。对于基于词典的方法,我们使用了pysentiment2 Python库实现了LMD和HIV-4,同时使用NLTK库实现了VADER。对于深度学习方法,我们通过HuggingFace获得了FinBERT模型和我们的FinLlama模型,并通过Transformers库使用这些模型。我们评估了每种方法在给定公司每个语料库中的每篇文章上的表现。如果同一天针对同一家公司发布了多篇文章,我们会计算当天的平均情感,计算公式如下:
S_t = \frac{1}{N_t} \sum_{i=1}^{N_t} S_{it}    (1)
其中,S_{t}代表第t天的平均情感,N_{t}表示给定公司在第t天发表的新闻文章数量,而S_{it}代表第t天第i篇新闻文章的情感强度。每家公司的每日情感输出被合并,形成了最终的情感数据,这些数据在投资组合构建阶段被用作参数。

投资组合构建。

一旦为每家公司定义了每种方法的情感,就构建了多空投资组合。我们使用情感作为一个参数来确定哪些公司应该处于多头或空头位置,旨在最大化两个位置的回报。

多空投资组合的构建采用以下程序:
- 定义可投资宇宙:尽管标普500包含500家公司,但在2015年2月至2021年6月的测试期间收集的金融文本数据并未包含与某些公司的关联文章。因此,最终考虑了417家公司。
- 定义多头和空头位置:从五种方法中获得的情感信号被用来构建五个不同的投资组合。对于每种方法,公司根据其情感每日进行排名。在特定日没有情感数据的公司被排除在排名之外。由于每家公司的日常情感得分范围在-1到1之间,最具积极情感的公司被置于多头位置,而具有最强烈负面情感的公司被置于空头位置。
- 分配:在我们的投资组合构建中考虑了等权重投资策略,因为这是对冲基金最常使用的策略。多头和空头位置的公司比例被固定在35%。因此,根据表现排名,前35%的公司被分配到多头位置,而后35%的公司被分配到空头位置。
- 确定每日回报:通过特定日的市场数据获得处于多头或空头位置的公司的每日回报。

处于多头位置的公司的总日回报被定义为

\text{Daily Long Return } r_{\text{long}} = \sum_{i=1}^{N_{\text{long}}} \frac{r_{\text{long}}(i)}{N_{\text{long}}}

同样地,处于空头位置的公司的总日回报被定义为

\text{Daily Short Return } r_{\text{short}} = \sum_{i=1}^{N_{\text{short}}} \frac{r_{\text{short}}(i)}{N_{\text{short}}}

对于每一特定的日子,持有多头位置(Nlong)或空头位置(Nshort)的公司数量是相等的。因此,特定一天的投资组合总回报是日多头回报和日空头回报之间的差值,公式如下:

\text{Daily Return } r_{\text{daily}}(i) = r_{\text{long}}(i) - r_{\text{short}}(i)

投资组合评估。

使用我们微调后的模型构建的投资组合的性能,与其他当前最先进的(SOTA)情感分析方法构建的投资组合进行了比较。为此,采用了以下现实世界的金融指标来评估:
累积回报率(Cumulative Returns)、年化回报率(Annualized Return)、年化波动率(Annualized Volatility)和夏普比率(Sharpe Ratio)。这些指标定义如下:
累积回报率r_{cum} = \sum_{i=1}^{N} r_{daily}(i)
年化回报率R_p = \sum_{i=1}^{N} \frac{r_{\text{log}}(i)}{N} \times 252
年化波动率\sigma_p = \sqrt{\frac{1}{N-1} \sum_{i=1}^{N} (r_{log}(i) - \bar{r})^2} \times \sqrt{252}
夏普比率Sa = \frac{R_p - R_f}{\sigma_p}
其中N是投资天数的总数,共1,672天, r_{log}(i)是日对数回报率,\bar{r}是平均日对数回报率,R_f是年化无风险回报率,252是一年中的交易日数。无风险回报率R_f通常代表10年期国债的收益率;然而,由于在分析期间其长期低收益率,通常使用0%的利率,并在我们的分析中采用。

IV. 实验结果


如第三节所述,构建的五个投资组合的性能表现如图3所示。观察到,深度学习方法在累积回报方面优于基于词典的方法,特别是那些依赖于通用词典的方法(HIV-4和VADER)。这是意料之中的,因为基于词典的方法通常无法捕捉句子的上下文含义,而金融文本的微妙性质显著降低了通用词典的准确性。此外,如图3左下角面板所示,所有方法在动荡和高波动性的经济时期,如2020年第一季度,表现出最佳性能。表II中观察到的结果表明,使用我们微调后的Llama-2模型构建的35%多空投资组合最为成功。这归因于其能够实现显著更高的累积回报,与所有其他考虑的方法相比,最重要的是与FinBERT相比,同时获得更高的夏普比率和更低的波动性。

总体而言,我们的FinLlama模型成功地为投资者生成了显著更高的回报,同时降低了投资组合风险,如更高的夏普比率和更低的年化波动率所示。

V. 结论和未来工作


我们引入了一种创新的金融情感分析方法,该方法基于通用大型语言模型(LLM)的微调。通过这种方式,所提出的方法利用了LLMs固有的广泛知识库和推理能力,同时将其主要目标从文本生成转变为分类任务。此外,这种方法使LLMs能够更加适应金融领域的微妙语言,同时最小化它们的资源利用和计算需求。
我们微调后的Llama2 7B模型,称为FinLlama,已用于构建一个投资组合,其结果超过了该领域当前领先方法FinBERT。FinLlama实现了比FinBERT模型高出44.7%的累积回报,同时获得了显著更高的夏普比率和更低的年化波动率。这不仅代表了情感分析和LLMs联合框架领域的重大贡献,而且证明了即使只有少量特定任务数据,微调LLM也可以产生优越的结果。此外,当前工作在该领域设立了新的基准,超越了文献中常用的传统度量,如准确率和F1分数。相反,我们关注的是具有更大实际相关性的特定于金融的指标。我们希望这种方法是缩小学术研究和量化金融中实际应用之间鸿沟的一个步骤。


我们的未来研究将旨在通过纳入额外的技术来提高我们模型的情感分类准确性和效率,以提供一个易于处理的平台,以促进人工智能(AI)在金融领域的应用。


免责声明:此处内容不构成金融建议,也不是交易真实资金的建议。请使用常识,并在交易或投资前始终先咨询专业人士。

REFERENCES

[1] K. Mishev, A. Gjorgjevikj, I. Vodenska, L. T. Chitkushev, and D. Trajanov, “Evaluation of sentiment analysis in finance: From lexicons to transformers,” IEEE Access, vol. 8, pp. 131 662–131 682, 07 2020. [Online]. Available: https://ieeexplore.ieee.org/document/9122206

[2] H. Touvron, L. Martin, K. Stone, P. Albert, A. Almahairi, Y. Babaei, N. Bashlykov, S. Batra, P. Bhargava, S. Bhosale et al., “Llama 2: Open foundation and fine-tuned chat models,” arXiv preprint arXiv:2307.09288, 2023. [Online]. Available: https://arxiv.org/abs/2307.09288

[3] E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu, Y. Li, S. Wang, L. Wang, and W. Chen, “LoRA: Low-rank adaptation of large language models,” arXiv preprint arXiv:2106.09685, 2021. [Online]. Available: https://arxiv.org/abs/2106.09685

[4] E. F. Fama, “Efficient capital markets: A review of theory and empirical work,” The Journal of Finance, vol. 25, no. 2, pp. 383–417, 1970. [Online]. Available: https://onlinelibrary.wiley.com/doi/abs/10.1111/j.1540-6261.1970.tb02551.x

[5] X. Li, H. Xie, L. Chen, J. Wang, and X. Deng, “News impact on stock price return via sentiment analysis,” Knowledge-Based Systems, vol. 69, pp. 14–23, 2014. [Online]. Available: https://www.sciencedirect.com/science/article/pii/S0950705114003038

[6] Z. T. Ke, B. T. Kelly, and D. Xiu, “Predicting returns with text data,” National Bureau of Economic Research, Tech. Rep., 2019. [Online]. Available: https://www.nber.org/papers/w26186

[7] N. Cristianini and J. Shawe-Taylor, An introduction to support vector machines and other kernel-based learning methods. Cambridge University Press, 2000. [Online]. Available: https://www.cambridge.org/core/books/introduction-support-vector-machines/1D2D3E3A6E4C4E5C3C1E5A3E3A2D3A2

[8] Z. Yang, D. Yang, C. Dyer, X. He, A. Smola, and E. Hovy, “Hierarchical attention networks for document classification,” 01 2016, pp. 1480–1489. [Online]. Available: https://www.aclweb.org/anthology/P16-1101.pdf

[9] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding,” in North American Chapter of the Association for Computational Linguistics, 2019. [Online]. Available: https://api.semanticscholar.org/CorpusID: 52967399

[10] D. Araci, “FinBERT: Financial sentiment analysis with pre-trained language models,” arXiv preprint arXiv:1908.10063, 2019. [Online]. Available: https://arxiv.org/abs/1908.10063

[11] Z. Chen, S. G¨ossi, W. Kim, B. Bermeitinger, and S. Handschuh, “FinBERT-FOMC: Fine-tuned FinBERT Model with sentiment focus method for enhancing sentiment analysis of FOMC minutes.” Proceedings of the 4th ACM International Conference on AI in Finance, 2023, pp. 357–364. [Online]. Available: https://dl.acm.org/doi/10.1145/3687610.3687613

[12] X.-Y. Liu, G. Wang, and D. Zha, “FinGPT: Democratizing internet-scale data for financial large language models,” arXiv preprint arXiv:2307.10485, 2023. [Online]. Available: https://arxiv.org/abs/2307.10485

[13] H. Yang, X.-Y. Liu, and C. D. Wang, “FinGPT: Open-source financial large language models,” arXiv preprint arXiv:2306.06031, 2023. [Online]. Available: https://arxiv.org/abs/2306.06031

[14] B. Zhang, H. Yang, and X.-Y. Liu, “Instruct-FinGPT: Financial sentiment analysis by instruction tuning of general-purpose large language models,” ArXiv, vol. abs/2306.12659, 2023. [Online]. Available: https://arxiv.org/abs/2306.12659

[15] S. Wu, O. Irsoy, S. Lu, V. Dabravolski, M. Dredze, S. Gehrmann, P. Kambadur, D. Rosenberg, and G. Mann, “BloombergGPT: A large language model for finance,” ArXiv, vol. abs/2303.17564, 2023. [Online]. Available: https://arxiv.org/abs/2303.17564

[16] I. Loshchilov and F. Hutter, “Fixing weight decay regularization in Adam,” ArXiv, vol. abs/1711.05101, 2017. [Online]. Available: https://arxiv.org/abs/1711.05101

[17] T. Loughran and B. Mcdonald, “When is a liability not a liability? Textual analysis, dictionaries, and 10-Ks,” The Journal of Finance, vol. 66, pp. 35 – 65, 02 2011. [Online]. Available: https://onlinelibrary.wiley.com/doi/abs/10.1111/j.1540-6261.2011.01682.x

[18] P. J. Stone, D. C. Dunphy, M. S. Smith, and D. M. Ogilvie, The General Inquirer: A Computer Approach to Content Analysis. MIT Press, 1966.

[19] C. Hutto and E. Gilbert, “VADER: A parsimonious rule-based model for sentiment analysis of social media text,” Proceedings of the 8th International Conference on Weblogs and Social Media, ICWSM 2014, 2015, pp. 216–225. [Online]. Available: https://www.ics.uci.edu/~hutto/VADERSentimentPaper.pdf

[20] Z. T. Ke, B. T. Kelly, and D. Xiu, “Predicting returns with text data,” National Bureau of Economic Research, Inc, NBER Working Papers 26186, 2019. [Online]. Available: https://www.nber.org/papers/w26186

[21] J. B. Berk and P. M. DeMarzo, “Corporate finance,” vol. 5, 2019. [Online]. Available: https://www.pearson.com/us/higheredu/products/berk-demarzo-corporate-finance-4th-edition.html

[22] Yahoo Finance, “Treasury yield 10 years historical data.” 2023. [Online]. Available: https://finance.yahoo.com/quote/%5ETNX/history?p=%5ETNX

VI. 附录


A. 基于词典的方法


1) 哈佛IV-4心理学词典(HIV-4):HIV-4是最古老的手工构建的词典之一,用于客观地识别社会科学、政治学和心理学领域中信息的特定特征。HIV-4词典的最新版本包含超过11,000个单词,这些单词被分类到183个类别中的一个或多个。在这项工作中,我们关注标记为积极的1,045个单词和标记为消极的1,160个单词。
2) Loughran和McDonald(LMD)词典:Loughran和McDonald评估了标准词典,并发现这些词典经常在金融文本中错误分类术语。这一洞察导致了专门为金融领域量身定制的LMD词典的开发。该词典将单词分为六个不同的情感类别:消极、积极、不确定性、诉讼、强情态和弱情态。它是使用来自纽约证券交易所(NYSE)和全国证券交易商自动报价系统(NASDAQ)上市的8,341家公司1994年至2008年期间的50,115份10-K文件的数据构建的。总的来说,LMD词典包含2,355个消极的金融词汇和353个积极的金融词汇。
3) 情感推理的价值感知词典(VADER):VADER结合了来自微博环境的词典特征,以及人们通常用来表达或强调情感强度的语法和句法约定。这使得VADER能够准确地量化文本的情感强度。该模型包含大约9,000个标记特征,每个特征都被分配了一个从-4(表示极度消极情感)到+4(表示极度积极情感)的情感得分。文本的总体极性得分是通过将词典中每个单词的情感得分相加来计算的,最终得分被归一化在-1到+1的范围内。

B. 深度学习方法


1) FinBERT:FinBERT利用BERT模型架构,并专门针对金融环境进行了定制。它在由汤姆森路透文本研究收藏(TRC2)数据集提供的180万篇新闻文章上进行了预训练,时间跨度为2008年至2010年。通过在金融短语库(FPB)数据集上进行微调,进一步增强了其在金融情感分类方面的能力。FinBERT为三个标签:积极、消极和中性生成SoftMax输出。

  • 33
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值