数据文件 Insurance csv包含1338条观测,即目前已经登记过的保险计划受益者以及表示病人特点和历年计划入的总的医疗费用的特征。这些特征是
Age.表示主要受益者的年龄
Sex:性别sex=1,表示男性;sex=0表示女性
Bmi:身体质量指数,BMI指数等于体重(公斤)除以身高(米)的平方。理想的BM指数在18.5-24.9
Children:整数,表示保险计划中所包括的孩子受抚养者的数量
Smoker:是否吸烟, smoker=1表示吸烟, smoker=0表示不吸烟
Region:四个居任地,1,2,3,4
Charges:已结算的医疗费用如何将这些变量与已结算的医疗费用联系在一起是非常重较的。
结合本学期所学的回归预测方法,建立这些变量与 Charges的关系,并说明为什么选择该模型,并从预测误差角度说明该型的好坏。
data <- read.csv("insurance.csv")
选择的回归方法:线性回归,决策树回归,随机森林回归,SVM 回归,然后通过比较RMSE来判断 模型 的好坏
划分训练集和测试集
index <- sample(nrow(data