文本系列主要从新闻,投资者讨论,研报三个文本源开展量化投资研究。新闻是一般是事实性描述,投资者讨论是情绪性文本,而研报更多的是逻辑性文本。
1. 探索新闻与股价
数据来源:雪球网上的4000条;财经类网站包括新浪财经,凤凰财经等。
问题的关键是爬虫任务的持续性,每天都要定时爬取事先指定的网站清单。
模型的好处是不需要用户对新闻进行标注,系统可以自动实现对新闻的自动划分。个人认为是事件驱动策略与情感分析的融合体。除了下面框架中使用向量空间模型对文档进行表示,还可以使用命名实体(如机构名),名次短语(比如定向增发等事件名)等进行表示。使用这种方式进行表示可以进一步探索这些命名实体,名次短语对股价的影响。
个股新闻与其短期股价波动关系的研究框架
2. 投资者的情绪与股价
用户的投资意见是一种口语化并且充满情绪性的短文本。若从大数据的思路研究股票市场,分析用户的这些UGC是不可忽视的一环。我打算从两个方面对这些UGC进行处理,一个方面是用户在讨论什么,另一方面是用户的看法是什么。第一问题是主题模型,第二个问题是情感分析。在此基础上,可以建立如下投资策略
1.投资者的讨论量
投资者的讨论与关注本身即代表该标的股票的近期在资本市场上有所动作,另外,反向也可能投资者的广泛关注引起该股票的股价的波动。
2. 投资者的意见倾向
基于投资者的意见偏向去预测股价的波动是一种最为常规的做法。
3.分析投资者的意见异质性
Zhang-2006JF,Edward M. Miller,1977等都证实了公司的information uncertainty可以在一定程度上解释股价异象。所谓的information uncertainty是指
By information uncertainty, I mean ambiguity with respect to the implications of new information for a firm’s value, which potentially stems from two sources: the volatility of a firm’s underlying fundamentals and poor information.
Yuandong Xu , (2016) 进一步证实了“投资者的意见分歧”结合动量策略,是一个非常好的因子。
雪球网:雪球网用户的讨论在性质上偏向于专业分析,逻辑推演等,文本一般比较长。在分部的特点上,个股主页下的用户讨论显示有限,仅有4000条左右。另外关于用户讨论会显示在用户主页下面的发表的帖子。如果明确一个给定的用户,这个数据可以全部获取。但是由于每一只个股本身的用户关注量比较大(比如平安银行有28万),因此基于主页层面的爬取就显得笨拙。
东方财富网的股吧:性质上非常口语化,情绪化,文本短。数据量上相对较多。
微博:微博的数据实效性最强,数据量大。微博数据具有反爬虫机制。目前常规的做法是在微博的搜索页面上,根据关键词,进行爬取。变换关键词,时间参数等可以获取10000条左右的微博。另外一种做法,是首先去个股的主页上获取其粉丝列表(仅仅显示有限页数)或者锁定好一些有影响力的投资者微博账号,然后根据这些用户,可以获取其主页之下的微博。这也是一种效率不高的方法。数据要有代表性。即获取的用户讨论在投资者总体中要无偏。实现无偏的方式:增加数据量;多来源多群体爬取。
3.主题概念的热度
主题概念是新闻媒体,投资者以及研报都乐于讨论的一个方面。因此从这些文本中提取出目前的板块热度或许可以为主题投资提供新思路。主题概念投资关键是可以分为两个层次:(1)探寻新的话题(2)找到话题的当前的热度。
主题分析,关键词提取算法等可以为探寻新话题提供技术保障。另外,光大证券之前开发的中文云系统以及相关的研究也表明这种方法的可行性。
基于主题分析的关键词网络
概念热度研究框架
资源与链接
Yuandong Xu , (2016) "Aversion of information ambiguity and momentum effect in China’s stock market", China Finance Review International, Vol. 6 Iss: 2, pp.125 - 149
X. FRANK ZHANG∗ ,(2006),”Information Uncertainty and Stock Returns”, THE JOURNAL OF FINANCE • VOL. LXI, NO. 1 • FEBRUARY 2006,pp.105-136
Kim-Georg Aase,(2011),”Text Mining of News Articles for Stock Price Predictions”, master thesis,Norweigian University of Science and Technology.
光大证券中文云系统
雪球网 https://xueqiu.com/