R语言数据挖掘-关联规则挖掘（1）

日月流水

于 2024-03-15 21:59:18 发布

阅读量2.7k

点赞数 29

文章标签： r语言数据挖掘开发语言

本文链接：https://blog.csdn.net/2301_78852561/article/details/136749698

版权

一、分析目的和数据集描述

要分析的数据是美国一区域的保险费支出的历史数据。保险费用数据表的每列分别为年龄、性别、体重指数、孩子数量、是否吸烟、所在区域、保险收费。

本文的主要目的是分析在年龄、性别、体重指数、孩子数量、是否吸烟、所在区域中这些因素中，哪些因素对保险费支出影响最大，这些因素中哪些因素与保险费用的关联最大。

分析影响保险费支出的具体因素，本文用到了R语言的数据挖掘-关联规则挖掘Apriori算法。

具体使用和详细用法如下：

二、导入数据集

df<-read.csv('f:/桌面/insurance.csv')

head(df)

head(df)
  age    sex   bmi children smoker    region charges
1  19 female 27.90        0    yes southwest   16885
2  18   male 33.77        1     no southeast    1726
3  28   male 33.00        3     no southeast    4449
4  33   male 22.70        0     no northwest   21984
5  32   male 28.88        0     no northwest    3867
6  31 female 25.74        0     no southeast    3757

三、导入关联规则挖掘用到的分析程序包

library(arules) #用于数据关联规则挖掘
library(arulesViz) #关联规则挖掘的可视化程序包
library(dplyr) #用于数据处理的分析包，我们将使用里面的管道函数%>%
library(ggplot2)

四、查看数