科创之股票数据挖掘(3)

    最近越来越忙了,不过今天还是抽出时间操作了一下上一篇文章讲的挖掘方法,还好我操作了一下,这东西还是要看实效说话的,如果挖不到有价值的信息,再高级的算法,再好的想法,都是空谈。上一篇文章做了一下分析,具体的操作也说了下,不过由于时间比较仓促,我没有进一步做分析,那么这篇文章我来讲述一下我自己的实际操作。由于数据库的几百万行数据还在处理,指标的建模也还未完成,所以这里只拿一个小规模数据来做,不过足以得到部分信息。

    我们以601899紫金矿业为例,首先从大智慧新一代里面,把KDJ,RSI,PSY数据弄到EXCEL表格中,离散掉,方法在上一篇文章有讲到,另外,再从K线图中取出数据,算出涨跌幅,作为最后一列加入表格中。当然,对涨跌幅也不要忘记离散化。为了能让WEKA识别文件格式,我吧它另存为CSV文件,然后就可以用WEKA来做分析了。(大智慧里最多可以弄到两年半的每日数据,如果要更多的数据,可以通过别的途径弄到,自己想办法吧)WEKA在关联规则方面有3个算法,分别是Apriori,PredictiveApriori(2001年)和Tertius(1999年)。这里我们用到的是第一种算法,不过PredictiveApriori也是非常值得我们关注的算法,它将置信度和支持度合并成预测精度而成为预测精度,最后我们会找到经过预测精度排序的关联规则,这样我们得到的结果会更加一目了然。可惜的是,国内的相关资料并不多,如果实在找不到资料,我就直接读源码了,不得不提的是WEKA的源码具有非常到位的注释和文档,这点还是很赞的。Tertius其实也是一个功能极其强大的算法,它在关联规则中融入了决策树中“类”的观念,其实它更适合用来做股票规则的预测,因为它是明确了要关联的对象,我们不再需要在我们的预测结果中再做筛选。之前对关联规则了解不多,对这个算法的原理也不是很清楚。以后如果有机会,会写文章对上面的算法做具体的介绍。

    回到操作上来,WEKA中Apriori算法会需要传一些参数进去,每个参数具体的意义其中都有注释,我们将numrules改成1000,将outputitemsets改成TRUE,将metrictype设置成confidence,minmetric设置成0.8,方面对结果做分析。于是得到结果。这样我们利用这些信息可以做成一个根据输入信息查询历史出现次数的软件。例如:KDJ中的K值在10-90,D值在20-80,J值在10-100的情况下,频繁项集包含了基本持平(223次),还有小幅下跌(76次)。这个信息告诉我们,在这支股的历史中,当KDJ指标指示为徘徊观望的值的时候,其实这支股票一般会跌或者持平,涨的可能性其实已经很小了。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值