源数据共有140个变量,10968个样本
happiness_train_complete:140个变量,8000个样本(训练集)
happiness_test_complete:140个变量,2968个样本(预测集)
阿里天池只有报名成功后才可以获取数据,报名地址如下:
https://tianchi.aliyun.com/competition/gameList/activeList
1.变量名称解释如下
2.加载需要的包、合并数据集
library("pROC") #用roc
library("Hmisc") #用describe
library("lubridate") #用year,quarter
library("readxl") #用read.csv
library("caret") #用createDataPartition
library("xgboost") #用xgboost
#设置本地文档的路径
setwd("D:/Test/happiness")
#读取训练集和预测集
train<-read.csv("happiness_train_complete.csv")
test<-read.csv("happiness_test_complete.csv")
#预测集缺少happiness变量,增加happiness,使训练集、预测集可以合并
test$happiness<-NA
#合并训练集、预测集
ha<-rbind(train,test)
#查看ha的描述性统计量
describe(ha)
由于描述性统计量比较多,不在此展示,感兴趣的可以在RStudio上运行看一下
3.特征工程
#将happiness==-8的值改为3
ha$happiness[ha$happiness==-8]<-3
#由于xgboost的分类属性值从0开始,所以需要将happiness的属性统一减去1
ha$happiness<-ha$happiness-1
#加载