目录
前言
1.本文介绍的关联规则的具体应用, 针对目前我国的股票市场,对 2022 年 1 月 4 日至 2023 年 4 月 28 日 我国股票市场的 20 个板块指数的日收盘数据进行关联规则挖掘,利用 Apriori 算法分析板块之间的关联关系。
2.关联规则的详细介绍和知识点请看这篇文章
关联规则挖掘-知识点总结_睡觉前的博客-CSDN博客https://blog.csdn.net/cy14713147/article/details/131029089
一.数据采集及预处理
时间 | 传媒 | 通信服务 | 计算机应用 | 教育 |
2022-12-01,四 | 3.64% | 2.33% | 2.59% | 2.19% |
2022-12-02,五 | 1.15% | -0.31% | -0.48% | 0.65% |
2022-12-05,一 | -1.33% | -1.08% | -0.33% | -0.54% |
2022-12-06,二 | -2.23% | -2.88% | -2.26% | -2.83% |
2022-12-07,三 | 0.34% | 0.46% | 1.58% | -0.28% |
在进行关联规则挖掘前,必须对所搜集的数据进行预处理,根据每种股票板块指数在当天交易的涨跌情况将其对应的日收盘数据转化为二项分类型数据。收 益率大于 0
即为股价上涨,用
"Yes"
表示,收益率小于
0
即为股价下跌,用
"No" 表示。
library(arules)
library(arulesViz)
library(tidyverse)
library(openxlsx)
data=read.xlsx("data.xlsx")
data=as.data.frame(data)
data1=data[42:61]
data2=as(data1,"transactions")
二.生成最大频繁项集
数据预处理后,根据股票板块指数“涨”、“跌”情况这两种属性,利用关联规则算法进行挖掘。
生成最大频繁项集。

options(digits=3)
#生成最大频繁项集
parameter1<-list(support=0.4,target="maximally frequent itemsets")
item_maxF<-data2 %>% apriori(parameter=parameter1) %>% sort(by="support")
item_maxF <- inspect(item_maxF)
三.生成频繁项集
#生成频繁项集
parameter2<-list(support=0.4,target="frequent itemsets")
item_F<-data2 %>% apriori(parameter=parameter2) %>% sort(by="support")
item_F<-inspect(item_F)
四.生成规定参数的关联规则
当支持度阈值为
0.4
,置信度
(confidence)
阈值为
0.8
时,可以从模型中找到 许多有意义的强关联规则。最终我们共找到 52
条关联规则。
## 设置置信度confidence=0.6,利用函数ruleInduction()生成关联规则
options(digits=3)
parameter2<-list(support=0.4,target="frequent itemsets")
item_F<-data2 %>% apriori(parameter=parameter2)
MyRules_lift<-item_F %>% ruleInduction(transactions=data2,confidence=0.8) %>%
sort(by="lift")
MyRules_l<-MyRules_lift%>% inspect()
五.可视化展示
MyRules_lift %>% plot(method="graph")
MyRules_lift %>% plot(method="paracoord")
综合而言,在满足最小支持度的情况下,专用设备与消费电子板块之间联动 效应较强的规则的置信度为 0.8686
,提升度大于
1.5
,说明是强关联规则;传媒、 计算机应用与通信服务板块之间的联动效应较强的规则的置信度为 0.9485
,提升度大于 1.5
,说明结论可靠性较高。结合网络结构图,从整体来看,计算机应用、 通信服务和传媒板块;通信服务、消费电子和专用设备板块;专用设备、电力设 备和工业金属板块之间的所指向的气泡较大,说明支持度较高,且颜色较深说明
提升度较高,规则可靠,联动效应较强。
