关联规则挖掘-关于板块间联动效应

该文运用Apriori算法对2022至2023年间中国股票市场20个板块的日收盘数据进行分析,通过数据预处理转化成二项分类,挖掘出最大频繁项集和频繁项集。设定支持度为0.4,置信度为0.8,发现专用设备与消费电子,以及传媒、计算机应用与通信服务等板块间存在强关联规则,具有较高的联动效应和可靠性。
摘要由CSDN通过智能技术生成

目录

前言

一.数据采集及预处理

 二.生成最大频繁项集

三.生成频繁项集

​编辑

四.生成规定参数的关联规则

五.可视化展示



前言

1.本文介绍的关联规则的具体应用, 针对目前我国的股票市场,对 2022 1 4 日至 2023 4 28 日 我国股票市场的 20 个板块指数的日收盘数据进行关联规则挖掘,利用 Apriori 算法分析板块之间的关联关系。

2.关联规则的详细介绍和知识点请看这篇文章

 关联规则挖掘-知识点总结_睡觉前的博客-CSDN博客https://blog.csdn.net/cy14713147/article/details/131029089

一.数据采集及预处理

时间传媒通信服务计算机应用教育
2022-12-01,四3.64%2.33%2.59%2.19%
2022-12-02,五1.15%-0.31%-0.48%0.65%
2022-12-05,一-1.33%-1.08%-0.33%-0.54%
2022-12-06,二-2.23%-2.88%-2.26%-2.83%
2022-12-07,三0.34%0.46%1.58%-0.28%
在进行关联规则挖掘前,必须对所搜集的数据进行预处理,根据每种股票板块指数在当天交易的涨跌情况将其对应的日收盘数据转化为二项分类型数据。收 益率大于 0 即为股价上涨,用 "Yes" 表示,收益率小于 0 即为股价下跌,用 "No" 表示。

library(arules)
library(arulesViz)
library(tidyverse)
library(openxlsx)
data=read.xlsx("data.xlsx")

data=as.data.frame(data)
data1=data[42:61]
data2=as(data1,"transactions")

 二.生成最大频繁项集

数据预处理后,根据股票板块指数“涨”、“跌”情况这两种属性,利用关联规则算法进行挖掘。
生成最大频繁项集。

options(digits=3)
#生成最大频繁项集
parameter1<-list(support=0.4,target="maximally frequent itemsets")
item_maxF<-data2 %>%  apriori(parameter=parameter1) %>% sort(by="support")
item_maxF <- inspect(item_maxF) 

三.生成频繁项集

#生成频繁项集
parameter2<-list(support=0.4,target="frequent itemsets") 
item_F<-data2 %>% apriori(parameter=parameter2) %>% sort(by="support")
item_F<-inspect(item_F) 

四.生成规定参数的关联规则

当支持度阈值为 0.4 ,置信度 (confidence) 阈值为 0.8 时,可以从模型中找到 许多有意义的强关联规则。最终我们共找到 52 条关联规则。
## 设置置信度confidence=0.6,利用函数ruleInduction()生成关联规则
options(digits=3)
parameter2<-list(support=0.4,target="frequent itemsets") 
item_F<-data2 %>% apriori(parameter=parameter2) 
MyRules_lift<-item_F %>% ruleInduction(transactions=data2,confidence=0.8) %>% 
  sort(by="lift") 
MyRules_l<-MyRules_lift%>% inspect()

五.可视化展示

MyRules_lift %>% plot(method="graph")
MyRules_lift %>%  plot(method="paracoord")

综合而言,在满足最小支持度的情况下,专用设备与消费电子板块之间联动 效应较强的规则的置信度为 0.8686 ,提升度大于 1.5 ,说明是强关联规则;传媒、 计算机应用与通信服务板块之间的联动效应较强的规则的置信度为 0.9485 ,提升度大于 1.5 ,说明结论可靠性较高。结合网络结构图,从整体来看,计算机应用、 通信服务和传媒板块;通信服务、消费电子和专用设备板块;专用设备、电力设 备和工业金属板块之间的所指向的气泡较大,说明支持度较高,且颜色较深说明
提升度较高,规则可靠,联动效应较强。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值