机器学习算法(十) 根据幸福感问卷调查做预测

最新推荐文章于 2023-05-10 11:26:50 发布

沉醉不知处

最新推荐文章于 2023-05-10 11:26:50 发布

阅读量1.3k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/haijunsm/article/details/111653359

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

阿里云快来一起挖掘幸福感！项目实战

项目地址https://tianchi.aliyun.com/competition/entrance/231702/information

1，数据准备

问卷调查数据主要包含的个人信息有职业，婚姻状况，收入，学历等40个features，label就是幸福感。

首先对数据进行预处理

(一) 第二列是数据特征，先独立抽取出来。

(二) 第七列是时间，本身对结果影响不大，又由于是字符串，暂时删除不用。

(三) 数据本身包含20197个空缺，对数据进行补充。

2，训练和预测

给定的数据包含train和test两部分，先用train分成两部分对建立的模型进行训练评分，最后对test预测。

3，模型选择

通过对数据观察，选择经典的决策树模型来对数据进行处理。下面是代码(模型)

clf = tree.DecisionTreeClassifier(criterion = 'entropy', random_state = 30, max_features ='log2', splitter = 'random', max_depth = 7, min_samples_leaf = 10, min_samples_split = 70 )
score = clf.fit(X_train, y_train)
predict_test_y = clf.predict(X_test0)
imp = clf.feature_importances_

res = clf.predict(Xtrans_test)

沉醉不知处

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
机器学习算法(十) 根据幸福感问卷调查做预测

1，数据准备问卷调查数据主要包含的个人信息有职业，婚姻状况，收入，学历等40个features，label就是幸福感。首先对数据进行预处理(一) 第二列是数据特征，先独立抽取出来。(二)第六列是时间，本身对结果影响不大，又由于是字符串，先把他删除。(三)数据本身包含20197个空缺，对数据进行补充2，训练和预测给定的数据包含train和test两部分，先用train进行模型的建立，然后用test进行测试训练结果。...
复制链接

扫一扫