一、分析目的和数据集描述
要分析的数据是美国一区域的保险费支出的历史数据。保险费用数据表的每列分别为年龄、性别、体重指数、孩子数量、是否吸烟、所在区域、保险收费。
本文的主要目的是分析在年龄、性别、体重指数、孩子数量、是否吸烟、所在区域中这些因素中,哪些因素对保险费支出影响最大,这些因素中哪些因素与保险费用的关联最大。
分析影响保险费支出的具体因素,本文用到了R语言的数据挖掘-关联规则挖掘Apriori算法。
具体使用和详细用法如下:
二、导入数据集
df<-read.csv('f:/桌面/insurance.csv')
head(df)
head(df) age sex bmi children smoker region charges 1 19 female 27.90 0 yes southwest 16885 2 18 male 33.77 1 no southeast 1726 3 28 male 33.00 3 no southeast 4449 4 33 male 22.70 0 no northwest 21984 5 32 male 28.88 0 no northwest 3867 6 31 female 25.74 0 no southeast 3757
三、导入关联规则挖掘用到的分析程序包
library(arules) #用于数据关联规则挖掘
library(arulesViz) #关联规则挖掘的可视化程序包
library(dplyr) #用于数据处理的分析包,我们将使用里面的管道函数%>%
library(ggplot2)
四、查看数