为什么 NLP 与股票预测息息相关


在许多 NLP 问题中,我们最终会得到一个序列并将它编码成一个单个固定大小的形式,然后将该形式编码到另一个序列中。例如,我们可能会标记出文本中的实体,而后将其从英语翻译成法语或将音频转换为文本。NLP 领域涉及方方面面的大量的工作,很多成果的性能正在达到世界领先水平。



在我看来,NLP 和金融分析最大的区别是:语言虽然有一定的结构保证,但是结构的规则是模糊的。另一方面,市场并没有承诺会提供一个可学习的结构,这样的结构之所以存在是建立在此项目会被证明或反驳的假设之上(而不是可能证明或反驳,如果我能找到该结构)。


假设结构是存在的,以我们编码段落语义的方式来概括市场当前状态的想法对我来说似乎是合理的。如果这还没有意义,请继续阅读,总会有意义的。


你应该知道它所持有的公司的一个单词(Firth,J. R. 1957:11)。


有大量关于单词嵌入的文献。Richard Socher 的演讲是一个很好的开始。


总之,我们可以将语言中的所有单词做成一个几何形状,这个几何形状可捕捉单词的意义和它们之间的关系。你可能已见过“国王+女人=女王”这个例子或者其他类似的例子。




单词之间的几何图形。通过观察上述单词,我们可以看出公司和其 CEO 之间内在的几何关系。


嵌入是很酷的,因为它们允许我们以一种精简的方式来表达信息。旧的表示单词的方式是在知道单词数量的情况下设置出一个向量(一个大的数字列表),随后在我们当前查找的单词位置将其设置为1。这不是一种有效的方法,也没捕捉到任何意义。使用嵌入法,我们可以在固定数量的维度上表示所有的单词(300似乎很多,50比较好),然后用更高维的几何去理解它们。


下面图片中有一个示例。整个互联网都在或多或少的训练嵌入。经过几天的集中计算,每个词都被嵌入在了相对高维空间里。这个“空间”是有几何形状的,类似距离这样的概念,所以我们可以找到那些靠的比较近的单词。该方法的作者或是发明者曾经举过这样一个例子。以下是与青蛙(Frog)最接近的单词。




根据 Glove 算法(单词嵌入的一种),以上单词是离“frog”最近的几个单词。请注意它是如何知道这些你以前从未听过的单词的,也请注意它是如何捕捉到这些单词与 Frog 的相似性的。


但是我们能嵌入的不仅仅是单词,比如,我们也可以做股票市场嵌入。

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------


展开阅读全文

没有更多推荐了,返回首页