阿里天池比赛：快来一起挖掘幸福感！用R语言带你进入前50

最新推荐文章于 2022-10-20 19:54:16 发布

置顶

姜姜是社会好青年

最新推荐文章于 2022-10-20 19:54:16 发布

阅读量3.6k

点赞数 6

分类专栏： R语言分析案例

本文链接：https://blog.csdn.net/qq_43461561/article/details/90720045

版权

本文分享了作者参加阿里天池比赛的经历，使用R语言进行数据挖掘，探讨了幸福指数的影响因素，包括主观认知和社会客观条件，并通过线性回归建模取得了进入前50的排名。文中提到了数据集的特点、建模过程及特征工程的重要性。

摘要由CSDN通过智能技术生成

在这里插入图片描述

源数据共有140个变量，10968个样本
happiness_train_complete：140个变量，8000个样本（训练集）
happiness_test_complete：140个变量，2968个样本（预测集）
阿里天池只有报名成功后才可以获取数据，报名地址如下：
https://tianchi.aliyun.com/competition/gameList/activeList

1.变量名称解释如下
在这里插入图片描述 2.加载需要的包、合并数据集

library("pROC")      #用roc
library("Hmisc")     #用describe
library("lubridate") #用year,quarter
library("readxl")    #用read.csv
library("caret")     #用createDataPartition
library("xgboost")   #用xgboost
#设置本地文档的路径
setwd("D:/Test/happiness")
#读取训练集和预测集
train<-read.csv("happiness_train_complete.csv")
test<-read.csv("happiness_test_complete.csv")
#预测集缺少happiness变量，增加happiness，使训练集、预测集可以合并
test$happiness<-NA
#合并训练集、预测集
ha<-rbind(train,test)
#查看ha的描述性统计量
describe(ha)

由于描述性统计量比较多，不在此展示，感兴趣的可以在RStudio上运行看一下
3.特征工程

#将happiness==-8的值改为3
ha$happiness[ha$happiness==-8]<-3
#由于xgboost的分类属性值从0开始，所以需要将happiness的属性统一减去1
ha$happiness<-ha$happiness-1
#加载

最低0.47元/天解锁文章

姜姜是社会好青年

关注

6
点赞
踩
31

收藏

觉得还不错? 一键收藏
2
评论
阿里天池比赛：快来一起挖掘幸福感！用R语言带你进入前50

源数据共有140个变量，10968个样本happiness_train_complete：140个变量，8000个样本（训练集）happiness_test_complete：140个变量，2968个样本（预测集）阿里天池只有报名成功后才可以获取数据，报名地址如下：https://tianchi.aliyun.com/competition/gameList/activeList1....
复制链接

扫一扫

专栏目录