快来一起挖掘幸福感!——阿里云天池项目实战(附完成实践过程+代码)

传送门:快来一起挖掘幸福感!——官方链接

目录

一、开发环境介绍

二、数据的分析、处理

2.1 数据初步分析

●观察调查问卷

●数据可视化处理

2.2 数据的处理

●对于特征的删除

●对于特征的填充

●对于特征的泛化以及特征工程

●对于标签的修正

2.3 数据的规范化

2.3.1 归一化处理

2.3.2 one-hot 独热编码

三、训练模型的选择、调优

3.1 任务分析

3.2 模型选择

3.3 参数调优

3.4 交叉验证

四、实验结果展示

五、探索历程

六、说明


一、开发环境介绍

IDE:Pycharm 2020.1.1

环境:python 3.7

用到的库:

numpy:用于多维度数组与矩阵计算

pandas:基于numpy数组,处理表格和混杂数据

sklearn:第三方机器学习库,用到了交叉验证方法和计算均方误差

xgboost:第三方xgboost算法库

matplotlib:用于可视化

二、数据的分析、处理

2.1 数据初步分析

对于数据的处理,首先要对数据的特征以及分布有一定的认识,下面将从观察调查问卷和数据可视化两个方面由浅入深的了解数据。

●观察调查问卷

项目中的所有的数据来源于《中国综合社会调查2015 年度调查问卷》,通过观察问卷可以得到以下信息:

  • 该问卷调查的内容主要包括:

关于被调查者以及被调查者配偶、被调查者子女、家庭的各种信息。

  • 该问卷收集的数据格式主要有:

时间(年)、可连续数值(金钱、面积、身高、体重等)、普通离散的整数

  • 同时发现,问卷中出现了可以“跳问”的选项,这说明或许有些选项是空缺非常严重的。
图表 1问卷中的跳问情况
图表 1问卷中的跳问情况

●数据可视化处理

得到初步的数据信息后,对数据进行可视化处理,进一步获取数据信息。

首先观察不同调查者的id情况:

图表 2幸福感随ID的分布
图表 2幸福感随ID的分布

可以看出,在8000名调查者中,幸福感有-8、1、2、3、4、5几种情况。联系问卷给出的信息,幸福感为-8表示被调查者并不能说出自己的幸福感。因此这部分数据,需要后续的处理。

更进一步,绘制出幸福感的数量分布情况:

图表 3幸福感的数量分布
图表 3幸福感的数量分布

上图可以直观地看到幸福感的数目分布情况,其中幸福感为4的人最多。

对于标签的分析结束,下面统计不同特征的缺失情况,绘制出所有特征的缺失率图:

图表 4特征ID及其缺失率情况
图表 4特征ID及其缺失率情况

由上图可以看出,绝大部分特征的缺失率非常的低以至于为0,有少数特征的缺失率非常高甚至接近了百分之百。

更进一步,绘制出缺失率大于50%的特征:

图表 5高缺失率特征
图表 5高缺失率特征

对于高缺失率的特征,需要在后面做删除处理。

对于一些比较特殊的数据可能需要特殊处理,比如时间(年),下面以被调查者的出生年份为例,绘制出被调查者ID与其出生年份的关系:

图表 6被调查者ID与被调查者出生年份的关系
图表 6被调查者ID与被调查者出生年份的关系

可以看出被调查者的出生时间主要在1920-2000之间分布,由于时间跨度大且数值极多,需要对其进行泛化处理以防止过拟合。

2.2 数据的处理

由于数据分为了训练集和测试集,在特征部分,两者是完全相同的,因此将训练集去除happiness后与测试集合并,方便以后的处理。

图表 7合并测试集和训练集 核心代码
图表 7合并测试集和训练集 核心代码

●对于特征的删除

根据可视化中的分析,有一部分特征的缺失率非常高,并不适合对其进行填充,因此直接删除缺失率大于50%的特征。

图表 8删除缺失率高的特征 核心代码
图表 8删除缺失率高的特征 核心代码

●对于特征的填充

对于缺失率并不高的特征,根据其特点对其进行填充。

观察到marital_now以及marital_1st的空缺可能是由于未结婚造成的,填充为9997

图表 9填充处理
图表 9填充处理

minor_child空缺可能是因为没有孩子,填充为0

根据输出可以看出,family_income这一特征只有1次缺失,可能是由于被调察人的疏忽造成的,

因此将此项填写为family_income的众数

图表 10填充处理
图表 10填充处理

s_xxx这一类特征,都是关于被调查人配偶的情况,也可能是由于被调查人可能没有配

偶而导致该项缺失,因此将该项用0填补。

图表 11填充处理
图表 11填充处理

●对于特征的泛化以及特征工程

对于出生日期这类的数据,其数值跨度十分广泛,为了避免过拟合,对其进行泛化。

图表 12年份泛化函数
图表 12年份泛化函数
图表 13年份泛化 核心代码
图表 13年份泛化 核心代码
特征工程:调查时间(survey_time),考虑到该特征对幸福感的影响并不大,故直接删掉。

●对于标签的修正

由之前的分析得出:-8表示并不确定自己的幸福感,考虑到概率问题,将幸福感为-8替换为众数4

图表 14标签处理 核心代码

2.3 数据的规范化

2.3.1 归一化处理

对于特征中具有连续值的量进行归一化处理,使用零-均值规范化(标准差标准化)方法。

归一化后,数据的均值为0,标准差为1。

图表 15零-均值规范化方法
图表 15零-均值规范化方法
图表 16连续数据归一化 核心代码
图表 16连续数据归一化 核心代码

2.3.2 one-hot 独热编码

对于离散数据,例如问卷中具有具体数字代表选项的特征,使用one-hot编码。

Ont-hot编码简介:对于某特征中的值,有多少不同的值,该特征就会扩展成多少维。例如:城市这一特征中有:‘北京’‘上海’‘青岛’,共三个不同的值,则将城市这一特征扩展成三维:‘北京’->100 ‘上海’->010 ‘青岛’->001.

Ont-hot编码意义:使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。而在回归,分类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算。将离散型特征使用one-hot编码,会让特征之间的距离计算更加合理。比如,有一个离散型特征,代表工作类型,该离散型特征,共有三个取值,不使用one-hot编码,其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是,(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗?显然这样的表示,计算出来的特征的距离是不合理。那如果使用one-hot编码,则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1),那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的,显得更合理。

图表 17one-hot编码 核心代码
图表 17one-hot编码 核心代码

三、训练模型的选择、调优

3.1 任务分析

该任务通过根据多维度的特征,从而判断预测幸福感。

在前期的可视化中观察到,训练集的幸福感分布为1、2、3、4、5以及-8,均为整数,结果有限,可通过分类的方式解决。

但是通过分类的方式预测的幸福感全部为整数,将会导致误差太大,因此采用回归的方式,预测某一浮点数值来表示幸福感。

3.2 模型选择

线性回归:实现简单,计算简单,但对于非线性的数据拟合效果不好。

KNN:本实验属性较多,对训练样本进行分类时,由于计算量大而使其效率大大降低,效果不是很理想。

XGboost:非线性模型。在随机森林的基础上融合boosting的思想建立树与树之间的联系,使森林不再是互相独立的树存在。继承了随机采样、随机属性选择、学习率等算法。

最终选择XGboost算法,算法简介:Xgboost源于决策树,但是决策树过拟合风险很大,应用场景有限,在此基础上诞生了随机森林,随机森林采用Bagging采样+随机属性选择+模型集成的方法解决决策树易过拟合的风险,但是所有的树都是独立存在的,某一棵树并不能对下一棵树产生正的影响,在此基础上又诞生了GBDT,使森林不再是互相独立的树存在,进而成为一种有序集体决策体系。而Xgboost在GBDT的基础上更进一步,目标函数中加入正则项,进一步防止过拟合,并且引入了二阶泰勒展开,只要损失函数可导,便可自定义损失函数。可以说,XGBoost是一种集大成的机器学习算法。

3.3 参数调优

在XGBoost模型中,某些参数使用算法默认值,只对某些进行了调整:

eta:类似于学习率,通过缩减特征的权重使提升计算过程更加保守,防止过拟合max_depth:树的最大深度,树的深度越大,则对数据的拟合程度越高 subsample:用于训练模型的子样本占整个样本集合的比例,能够防止过拟合 colsample_bytree:在建立树时对特征随机采样的比例通过控制变量法(对某一参数进行调整时固定其他参数,使得该参数尽量达到最优后继续调整其他参数)进行调参.
过程如下:

图表 18调参过程1
图表 18调参过程1
图表 19调参过程2
图表 19调参过程2

3.4 交叉验证

为进一步防止过拟合,采用交叉验证,调用sklearn中的KFlod,尝试进行交叉验证,最终发现,当折数>5之后,提升效果并不明显,遂采用5折交叉验证。

图表 20交叉验证 核心代码
图表 20交叉验证 核心代码

四、实验结果展示

最终代码本地测试分数为0.4616,提交后线上测试如下图:

图表 21结果展示
图表 21结果展示

五、探索历程

首先进行了数据的初步处理,删除了高缺失率特征,填充了低缺失率特征。

初步考虑使用线性回归进行拟合,但简单尝试后效果并不理想。

改用XGBoost算法, 初步调参后本地score在0.48左右。

对特征数据进一步处理,进行泛化并且重新调整了XGBoost参数,提交后score在0.475左右。

引入交叉验证,重新训练,最终score确定为0.47184

六、说明

该项目是我在初学机器学习时的一个课程作业,博客里的内容是我完整的分析过程。由于是初学,python代码可能并不是十分简洁、合理,希望大家理解。有问题的地方欢迎大家讨论。

项目的全部代码获取链接如下(创作不易,需要积分才能下载,(tb也可购买资源下载次数)):

快来一起挖掘幸福感吧!.zip_快来一起挖掘幸福感-机器学习文档类资源-CSDN下载

  • 6
    点赞
  • 87
    收藏
    觉得还不错? 一键收藏
  • 28
    评论
### 回答1: 阿里云天池大赛是一个非常有名的数据科学竞赛平台,其中机器学习竞赛是其中的一个重要组成部分。在这个竞赛中,参赛者需要使用机器学习算法来解决各种各样的问题,例如图像识别、自然语言处理、推荐系统等等。 机器学习竞赛的解题过程通常包括以下几个步骤: 1. 数据预处理:参赛者需要对提供的数据进行清洗、特征提取、数据转换等操作,以便于后续的建模和训练。 2. 模型选择:参赛者需要选择适合当前问题的机器学习算法,并对其进行调参和优化。 3. 模型训练:参赛者需要使用训练数据对模型进行训练,并对训练过程进行监控和调整。 4. 模型评估:参赛者需要使用测试数据对模型进行评估,以确定其在实际应用中的性能表现。 5. 结果提交:参赛者需要将最终的模型结果提交到竞赛平台上进行评估和排名。 在机器学习竞赛中,成功的关键在于对问题的深入理解和对机器学习算法的熟练掌握。同时,参赛者还需要具备良好的团队合作能力和沟通能力,以便于在竞赛中取得更好的成绩。 ### 回答2: 阿里云天池大赛是一个非常受欢迎的机器学习竞赛平台,它汇集了大量来自世界各地的数据科学家,分享了一系列有趣的竞赛和可用的数据集,供参赛选手使用。机器学习篇中,我们将解析一些常见的阿里云天池大赛题目,让大家对机器学习竞赛有更深入的了解。 一、赛题选取 阿里云天池大赛的赛题通常与商业、医疗等复杂领域相关,选择数据集时要了解行业背景和数据质量,以准确地判断模型的准确性和适用性。此外,在选择赛题时,还要考虑与参赛选手一起合作的可能性,以及他们可能使用的算法和技术。因此,为了成功解决赛题,参赛者应当仔细研究题目的背景、数据、分析目标等内容,有助于更好地理解问题及其解决方案。 二、数据清洗 参赛者在使用数据时,需要对其进行实质性的预处理和清洗工作,以减少不准确的数据对结果的影响。预处理和清洗包括基本的数据处理,例如缺失值、异常值和重复值的处理,还需要利用可视化和探索性数据分析等技术来检查数据的分布情况、相互关系和异常值等问题。 三、特征选择 在构建模型之前,参赛选手必须确定哪些特征会对问题的解决产生实际影响。这个过程称为特征选择,它旨在通过保留最相关的特征来减少模型复杂性,提高准确性,并且还有助于减少数据集的维数。特征选择包括基于统计学和机器学习的算法,同时应该考虑特征的相关性和重要性。 四、建模和评估 参赛者在解决问题时,需要考虑使用何种算法,以及如何构建对应的模型。此外,还需在不同的算法和模型之间进行比较,并选择最优模型。最后,应该针对模型进行评估,以确保各种重要性能指标(例如准确性,召回率,精确度等)都得到最佳表现。 总的来说,机器学习是一种复杂而令人兴奋的技术,参赛者要考虑数据质量、数据清洗、特征选择、建模和评估等诸多因素。通过参加阿里云天池大赛,大家可以不断学习和练习,不仅提升自己的技能,同时还有机会获得丰厚的奖励。 ### 回答3: 阿里云天池大赛是一个集数据竞赛、人才选拔、行业交流、技术分享、产学研合作等多种功能于一体的大型平台。其中,机器学习篇的赛题挑战包括了各种典型机器学习场景,旨在挖掘数据中价值,提高数据应用和解决实际问题的能力。 在机器学习篇的赛题中,常见的任务包括分类、回归、聚类、推荐等,其中分类问题是最常见的任务之一。分类可以分为二分类、多分类、超大规模分类等多个子类型。对于分类问题,大家需要学习分类算法,如KNN、NB、SVM、LR、GBDT、XGBoost等,并熟悉如何调参等技巧。 回归问题主要是根据给定的样本数据,预测一个连续的数值。回归问题旨在找到独立变量(X)和连续依赖变量(Y)之间的关系,以便使用该模型来预测连续依赖变量的值。对于回归问题,大家需要掌握线性回归、岭回归、Lasso回归、ElasticNet回归等算法。 聚类问题是将相似的数据划分到同一类别中,相似度较高,不同类别之间相似度较低。对于聚类问题,大家需要学习如何使用K-means、DBSCAN、Hierarchical聚类算法。 推荐问题是根据用户的行为习惯,预测用户的需求,以便将相应的内容推荐给用户。推荐问题的数据通常包括用户的行为、物品的属性和用户的评分。推荐问题常用的算法包括CF、ALS、LFM等。除此之外,还有深度学习在图像识别、语音识别、自然语言处理、推荐、游戏AI等方面具有广泛的应用,如CNN、RNN、LSTM、GAN等。 总之,机器学习篇的赛题挑战涉及到各种典型机器学习算法和应用场景,需要大家掌握基础理论和实践技巧,并多参加实战项目和比赛练习,不断提升自己的能力和水平。
评论 28
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值