阿里天池比赛:快来一起挖掘幸福感!用R语言带你进入前50

本文分享了作者参加阿里天池比赛的经历,使用R语言进行数据挖掘,探讨了幸福指数的影响因素,包括主观认知和社会客观条件,并通过线性回归建模取得了进入前50的排名。文中提到了数据集的特点、建模过程及特征工程的重要性。
摘要由CSDN通过智能技术生成

在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
源数据共有140个变量,10968个样本
happiness_train_complete:140个变量,8000个样本(训练集)
happiness_test_complete:140个变量,2968个样本(预测集)
阿里天池只有报名成功后才可以获取数据,报名地址如下:
https://tianchi.aliyun.com/competition/gameList/activeList

1.变量名称解释如下
在这里插入图片描述2.加载需要的包、合并数据集

library("pROC")      #用roc
library("Hmisc")     #用describe
library("lubridate") #用year,quarter
library("readxl")    #用read.csv
library("caret")     #用createDataPartition
library("xgboost")   #用xgboost
#设置本地文档的路径
setwd("D:/Test/happiness")
#读取训练集和预测集
train<-read.csv("happiness_train_complete.csv")
test<-read.csv("happiness_test_complete.csv")
#预测集缺少happiness变量,增加happiness,使训练集、预测集可以合并
test$happiness<-NA
#合并训练集、预测集
ha<-rbind(train,test)
#查看ha的描述性统计量
describe(ha)

由于描述性统计量比较多,不在此展示,感兴趣的可以在RStudio上运行看一下
3.特征工程

#将happiness==-8的值改为3
ha$happiness[ha$happiness==-8]<-3
#由于xgboost的分类属性值从0开始,所以需要将happiness的属性统一减去1
ha$happiness<-ha$happiness-1
#加载
  • 6
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值