小文献综述--数据挖掘实时新闻预测股价

原创 2015年01月11日 16:55:52

//2015年1月11日

//我只看了四五天。。。。

//因为国内没有这方面的综述,国外的一两篇也是计算机算法视角的,所以只能自己收集

//国内复旦大学做的比较多,他们称为“金融数据挖掘”。。。。

//为了理清思路写的,也不算什么正规的综述

//这里主要好在把实验要考虑的要点给做了个综述。数据挖掘一旦接触实际领域就会有各种考量,因此大家实验设置都是乱的,至少在这块领域上。

文献综述:

    金融市场是一个复杂的非线性系统,股票价格的走势是许多因素共同作用的结果。其中市场信息是一大影响因素。各种影响股市的因素通过利好或利空消息传播到股市,影响投资者的心理和判断,使他们做出投资决策,从而导致股价波动。

 

    从金融学理论来看,收到广泛支持的“信息流理论模型”指出信息流是交易量和价格波动的共同驱动因素。许多国外成熟市场的实证研究均支持了此模型,而市场微观结构理论也指出,价格的变动主要是由于新的信息不断到达市场及新信息被结合到市场价格中去的过程产生的。

 

    随着因特网的发展,使得新闻地传播速度以及数量都发生了巨大的改变。拥有如此多的信息,越来越多的研究机构开始依靠现代计算机技术来进行信息分析。而如何建模和分析,从而做出更准确的预测成为了一个非常值得研究的问题。

 

    许多计算机科学研究人员已经在这方面有了一定成果。他们认为这是一个分类问题,他们的算法可以基于最新放出的新闻文章做出一个方向性预测。

 

    金融领域已经对新闻和市场价格做出了一些很有价值的观察和探讨。Ederington和Lee[6]发现在上午8:30公告放出后的五分钟市场价格标准差总会出现上涨。Engle和Eg[5]基于ARCH模型经验分析表明正面和负面的新闻具有非对称的效果。

 

    计算机科学领域也对新闻文章和市场价格分析做出了一些前期的工作。Seo等[7]建立了一个文本挖掘系统,该系统可以通过分析相关新闻文章来评估公司风险。Schumaker和chen[2]构造的AZFinText系统也可以对股票价格进行方向预测。

 

    这些工作的一般步骤可以大致分为如下几个阶段:

一、选择信息源

    可选择的信息源一般有:财经新闻、股市论坛、股市分析机构、社会化媒体以及互联网搜索数据。

 

    大部分研究工作集中在以财经新闻作为信息源[2,3,7,12],如文章[12]对收集的股市信息按照影响因子不同,将信息分类为经济新闻、金融市场新闻、国际经济新闻、基金和期货新闻、股票市场新闻五大类,然后运用神经网络考察分类信息对台湾加权股市价格指数(TWSPI)走势的影响,结论表明,互联网信息对股市异常波动的预测比某些经济指标具有更快的反应。

 

    文章[11]研究了互联网股市论坛中的信息与股价的关系。研究表明,持有股票的短线投资者越多,相应公司在互联网的股市信息量也越多。作者认为,出现这种现象是由于投资者期望通过主动发布更多的信息来促使该股上涨。同时,研究发现隔夜互联网信息对次日股市收益有预测作用,如果隔夜互联网信息增长100%,次日股价收益会有大约0.18%的异常波动。这说明互联网信息和股价变化之间有一定的关系。

 

    文章[8]研究了股市分析机构发布的信息与股价的关系,其为每一位作者增加一个信任因子(TrustFactor),通过计算作者过往的预测准确率动态更新信任因子,在观点挖掘中加入作者的影响权重,以一个较新颖的方法也取得了不错的预测效果。

 

    文章[4]开创性地使用了社会化媒体twitter的数据,通过观点挖掘的方法,用公众每日的情绪变化来预测股票市场如道琼斯指数、S&P500指数的运动趋势。研究表明公众情绪中的冷静(calm)指数预测股价波动的效果最好。

 

    文章[13]研究了搜索引擎中相关关键词搜索量与股价的关系,股票名称的被搜索次数代表了人们对该只股票的兴趣。研究表明搜索量越高,短期内股价上涨的可能性越高,长期股价反转的可能性越大。

 

    文献[16]针对相关领域研究中数据集和观点挖掘工具的参差不齐进行了比较研究。

二、选择预测对象

    大多数研究集中在股票运动趋势的变化上,但在预测对象的选择上又各不相同。在金融中,股票价格可分为两种不同类型:(1)日间数据,一般包含每天的开盘价,最高价,最低价,交易量。日间数据是按天收集的。(2)日内数据,也叫tick-by-tick数据,日内数据在一个较小的时间单位内收集。

 

    采用日间数据的有[3,4,14],其中文献[3]对新闻进行过滤,只选取相关的重大新闻,并认为股价的第三级趋势(tertiary movements)受市场信息冲击强烈。研究表明对三天后的股价变化预测效果最好。文献[4]利用twitter上的公众情绪数据预测第二天的纳斯达克股指收盘价的涨落趋势。

 

    采用日内数据的有[2,15],其中文献[15]以雅虎财经作为新闻源,对纳斯达克12只代表股票进行预测,研究表明在新闻放出前后20分钟区间内能达到显著的预测效果。文献[2]直接对新闻放出后20分钟的股价变化趋势进行预测。

预测对象还可分为单只股票[2,3,15]与股指[4,14]。

 

    除此之外,还有学者[9]对股价波动率进行预测,通过股市信息变化量和信息量的历史均值、历史方差作为输入,利用经过训练的神经网络来预测股价波动率,结果表明股市信息变化量变化越明显,相应的次日股价波动就越强烈,对于次日股价波动率超过5%的情况,系统能够做出100%的预测。

 

三、新闻文章表示

    新闻文章表示方法可分为文本挖掘与观点挖掘两类。

 

    第一类,利用传统的文本分类方法,分析特定主题的文本和股价的关系。基于文本挖掘的方法,一般将新闻文章作为“词包(Bag of Words)”处理,其中每个词无重复地出现在向量<word1,word2,·········>中。文献[2]中对Bag of Words, Noun Phrases和Named Entities三种不同的文本建模方式进行比较,实验表明NounPhrases取得了更好的效果。 文献[1]在总结文本挖掘在股票市场预测的基础上指出文本挖掘的算法虽然取得了一定成功,但预测的准确率并不让人满意。

 

    第二类,利用近几年兴起的观点挖掘方法,挖掘股市信息表达的观点,分析观点强弱和股价的关系[4,8,14]。观点挖掘不同于文本挖掘,其主要关注识别文档中作者表达的主观意见。观点挖掘技术能够深层次的挖掘文本信息,因此在互联网信息挖掘中比文本分类技术更有优势。

 

    除了文本挖掘和观点挖掘外,一些学者关注到市场相关新闻的特殊性。文献[14]针对财经新闻中往往包含多个话题的特点,提出一种基于topic model的文本建模方法。文献[2,14]通过实验表明市场信息中负面信息比正面信息能带来更好的预测效果。针对市场新闻的词汇特点,文献[14]推荐了中国金融情感词典(CFSL),其中包含631个积极词汇,575个负面词汇,6203个中性词汇。

 

四、股票价格表示与新闻标签

    Fung[10]设计出了新闻文章和价格数据的对齐方式。他们将可能的场景化为三类:(1)可观察的时间延时:新闻和价格变化中存在延时。(2)有效市场:观察不到延时,价格变化与新闻几乎同时发生。(3)报告:新闻在价格变化后放出,新闻是价格变化的一个报告。对齐新闻和价格主要要依靠新闻的时间戳。

新闻按照时间戳升序排列然后和对应时刻的价格对齐。

 

    价格数据是一系列的交易统计数据,由于价格数据是不平滑的,所以诸如参数化谱模型和傅里叶方法等时间序列的分段技术来平滑价格曲线,从而突出价格的趋势。

 

    在训练分类器之前,新闻要按照分段化后的股票价格来生成分类算法所需的标签,一般分为上涨,保持和下跌三种[2]。除了简单按照价格变化进行标签之外,语言学方法和情感挖掘也可以应用到标签生成中。

 

五、模型建立

    数据挖掘中的分类方法有SVM,朴素贝叶斯等。文献[2]在对股指进行预测时提出单独利用新闻进行预测的效果不佳,应当同时用新闻和价格历史数据进行建模。文献[3]指出市场信息含有很多噪声,在模型训练前应当进行新闻过滤。有一些学者[14]甚至认为应当只关注财经新闻中的热点话题,因为只有热点话题的新闻才会显著影响股价。

 

六、模型评价

    除了用一些数据挖掘中分类常用的基准,比如准确率(accuracy),召回率(recall)和精确率(precision),进行模型评价外,一些研究人员[2,10]也进行了历史仿真模拟,在真实市场数据下进行模拟市场操作。他们的交易策略是基于这些预测模型给出的交易信号,回报率被用作评估模型的性能。

 

引用:

[1]Koppel, M., Shtrimberg, I.: Good news or bad news?Let the market decide. In:Proceedings of the AAAI Spring Symposium on ExploringAttitude and Affect in Text: Theories and Applications, pp. 86–88 (2004)

 

[2]Schumaker R P, Chen H. Textual analysis of stockmarket prediction using breaking financial news: The AZFin text system[J]. ACMTransactions on Information Systems (TOIS), 2009, 27(2): 12.

 

[3]Fung G P C, Yu J X, Lu H. The Predicting Power ofTextual Information on Financial Markets[J]. IEEE Intelligent InformaticsBulletin, 2005, 5(1): 1-10.

 

[4]Bollen, J., Mao, H., Zeng, X.: Twitter moodpredicts the stock market.Journal of Computational Science (2011)

 

[5]Engle,R.,Ng,V.:Measuring andtesting the impact of news on volatility.Journal of finance48(5),1749-1778(1993)

 

[6]Ederington,L.,Lee,J.:How marketsprocess information:New releases and volatility.Journalof Finance 48(4),1161-1191(1993)

 

[7]Seo,Y.,Giampapa,J.,Sycara,K.:Financialnews analysis for intelligent portfolio management.Robotics Institute,CarnegieMellon University(2004)

 

[8]Sehgal V, Song C. SOPS: stock prediction using websentiment[C] Data Mining Workshops, 2007. ICDM Workshops 2007. Seventh IEEEInternational Conference on. IEEE, 2007: 21-26.

 

[9]梁循,陈华,杨健等。基于互联网股市信息量和神经网络的股价波动率预测[J]。中国管理科学,2006,14(10):220一226

 

[10]Fung,G.,Yu,J.,Lu,H.:The predicting power oftextual information on financial markets.IEEE Intelligent Informatics Bulletin5(1),1-10(2005)

 

[11]Wysocki P D. Cheap talk on the web: Thedeterminants of postings on stock message boards[J]. University of MichiganBusiness School Working Paper, 1998 (98025).

 

[12]DY Chui,KP Chuang,Applying Artifieial NeuralNetwork and Chinese News Classification Techniques to Taiwan StockMarket[J]Tamsui Oxford Journal of Mathematical Sciences,2003,19(2):201一215.

 

[13]Z. Da, J. Engelberand, and P. Gao. The sum of allfears: investor sentiment and asset prices. 2010.

 

[14]Xue L, Xiong Y, Zhu Y, et al. Stock TrendPrediction by Classifying Aggregative Web Topic-Opinion[M] Advances inKnowledge Discovery and Data Mining. Springer Berlin Heidelberg, 2013: 173-184.

 

[15]Gidofalvi G, Elkan C. Using news articles topredict stock price movements[J]. Department of Computer Science andEngineering, University of California, San Diego, 2001.

 

[16]Mao H, Counts S, Bollen J. Predicting financialmarkets: Comparing survey, news, twitter and search engine data[J]. 2011.


小文献综述--数据挖掘实时新闻预测股价

//2015年1月11日 //我只看了四五天。。。。 //因为国内没有这方面的综述,国外的一两篇也是计算机算法视角的,所以只能自己收集 //国内复旦大学做的比较多,他们称为“金融数据挖掘”。。。...
  • u013599826
  • u013599826
  • 2015年01月11日 16:55
  • 858

为什么 NLP 与股票预测息息相关

在许多 NLP 问题中,我们最终会得到一个序列并将它编码成一个单个固定大小的形式,然后将该形式编码到另一个序列中。例如,我们可能会标记出文本中的实体,而后将其从英语翻译成法语或将音频转换为文本。NLP...
  • jianningsun1879
  • jianningsun1879
  • 2018年02月09日 19:10
  • 68

关于数据挖掘的文献综述

数据挖掘包括分类、聚类、回归、关联、序列和偏差模式的识别,读书报告重点复述了分类、聚类模式。数据挖掘技术的常用方法:包括模糊理论、粗糙集理论、云理论、证据理论、人工神经网络、遗传算法以及归纳学习。...
  • sinat_33241390
  • sinat_33241390
  • 2017年07月14日 17:38
  • 1131

数据挖掘综述报告

1.数据挖掘产生于发展:        在金融业方面, 数据挖掘的应用突出表现在信用评估和防止欺诈等方面。PaoloGiudici和OliviaParrRud对利用神经网络、logistic回归和...
  • jiangliqing1234
  • jiangliqing1234
  • 2013年10月16日 09:36
  • 4656

股票

股票 目录·【注音】·【股票概念】·【股票性质】·【股票的起源】·【股票的作用】·【股票分类】·【股票基础】·【股票指数】·股票...
  • apinghappy
  • apinghappy
  • 2008年01月10日 17:22
  • 1090

抓取全网财经新闻,计算新闻相关股票的多空舆情,量化买入

抓取全网财经新闻,计算新闻相关股票的多空舆情,量化买入按照新闻的热度(涉及该股票的新闻出现次数)进行排序,买入排名靠前的前5只股票详细代码和结果https://uqer.io/community/sh...
  • zhangqiangbeijing
  • zhangqiangbeijing
  • 2018年02月11日 10:03
  • 41

数据挖掘中的聚类算法综述

聚合聚类的策略是先将每个对象各自作为一个原子聚类,然后对这些原子聚类逐层进行聚合,直至满足一定的终止条件;后者则与前者相反,它先将所有的对象都看成一个聚类,然后将其不断分解直至满足终止条件。 分割聚类...
  • qq_34884527
  • qq_34884527
  • 2016年07月09日 16:05
  • 326

大数据综述

随着移动互联网、物联网和云计算技术的迅速发展,开启了移动云时代的序幕,大数据(BigData)也越来越吸引人们的视线。正如1982年世界预测大师、未来学家约翰.奈斯比特(John.Naisbitt)在...
  • leveretz
  • leveretz
  • 2016年11月23日 11:53
  • 5310

[译] 实时股票预测的开源参考结构

[译] 实时股票预测的开源参考结构 大数据文摘 2016-01-06 08:20 关于转载授授权 大数据文摘作品,欢迎个人转发朋友圈,自媒体、媒体、机构转载务必申请授权,后台留言...
  • robertin
  • robertin
  • 2016年01月12日 12:04
  • 2056

时间序列数据挖掘综述

时间序列数据挖掘综述 一、引言   时间序列是指按时间顺序排列的一组数据,是一类重要的复杂数据对象。作为数据库中的一种数据形式,它广泛存在于各种大型的商业、医学、工程和社会科学等数据库中,...
  • notail_woo
  • notail_woo
  • 2013年10月31日 22:15
  • 2371
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:小文献综述--数据挖掘实时新闻预测股价
举报原因:
原因补充:

(最多只允许输入30个字)