最近看到了一些NLP在金融量化方面应用的文章,感觉idea很新颖,就写个博客记录一下.
一:AStock
题目为《Astock: A New Dataset and Automated Stock Trading based on Stock-specific News Analyzing Model》,2022年的新论文。
文章是在用近期的文本的分类情况做股票升跌的价值预测。具体分为以下4个步骤:
步骤1:使用类似NER抽取一句话S里的“主语”“谓语”“宾语”,用符号表示A0、V、A1。见图1所示。同时,将每句话S进行pretrain,得到这句话的embedding。
图1:SRL系统
步骤2:pooling,对主语的V0进行average。这步骤是对不同主语的角色取平均值,方便进行下一步计算。
步骤3:步骤1和2是对句子S生成embedding,现在将每个句子组合起来形成一个段落的embedding。
这里的Factor可以视为额外补充信息,例如“TTM”等信息。具体做法是:先embedding该金融因子,然后进行normalization再输入到MLP里,最后再和步骤3的embedding进行concat。
步骤4:将E放入transformer进行自监督学习。