Stock Embedding Acquired from News Articles and Price History, and an Application to Portfolio Optimization
这篇文章是ACL2020发表文章,他的研究方向是挖掘金融新闻,预测股价,并首次提出组合优化。本文主要就是简略讲一下我自己理解后的流程和计算。原文有些计算方法是分在两三个部分写的,我按照计算流程给它们整合了一下,并且我只挑了我觉得比较重点的部分写。所以看这篇文章可能需要先看看原文哦。
模型部分
模型主要分为两个部分,分别是文本特征蒸馏和价格运动分类。
Text feature distiller
这部分运用了key-value记忆网络,nK_i和nV_i分别表示文章的word Level 和 context level。
nK_i的计算:
其中,
γ_k = TF*IDF
TF=单词k在A文章中出现的次数/A文章中所有出现单词的次数和
IDF=log(第t天所有文章在corpus的总数/(所有corpus里含有单词k的文章+1))
nV_i:a BERT encoder.
因此,可以计算出一个score_(i,j)=nK_i*