故事从我们的大数据创业班的作业开始...
项目背景
在证券市场中,存在着大量历史交易数据。近年来随着大数据兴起,数据挖掘技术在股市中也得到了广泛的关注,在阅读文献的基础上我们小组对股市中不同情况如行业板块联动、行业指数涨跌预测、个股价格涨跌预测分别采用不同的机器学习算法进行分析。
Part1
关联规则与行业联动
一、算法介绍
关联规则可以通过特定的规则算法对数据进行分析,在海量的数据中寻找一个事件与其他事件的关联性和依赖性,挖掘出数据库中不同的数据项集之间隐藏的有价值的关联关系。
由于行业成长周期和货币财政政策调整给行业带来的机遇不同,造成股市出现行业联动现象。运用关联规则在股市的行业板块中找出这些频繁出现的项集有助于我们了解我国股市行业联动规律
在此次建模过程中,我们主要采取支持度和置信度两个指标对建模结果进行分析和优化。支持度表示规则发生的频率,置信度表示二者的关联性。
Apriori算法过程:首先找出所有交易数据库中大于或者等于制定的最小支持度的频繁项集,再利用频繁项集生成所需要的关联规则,从而根据所设定的最小值信度筛选出强关联规则。
二、数据收集
首先我们利用同花顺IFIND软件下载AMAC行业指数历史涨跌幅数据。
本组采用中基协基金估值行业分类指数(简称“AMAC行业指数”) 2018年1月2日-2018年8月29日每日涨跌幅。
三、数据清洗
由于板块指数每日涨跌幅度相比个股涨跌幅度小,且集中于-2%至2%之间,将行业每日涨跌幅分为六个阶段,在R语言中处理数据。