我们都知道爱情不仅要有爱你之心,还有柴米油盐,最好的爱情不是风花雪月,而是雪中送炭,如果有一天爱情你都不相信了。不知道你接下来的日子该往哪里走,一定要相信你身边那个数据分析师的朋友,他会用数据告诉你的爱情之路怎么走?
1.案例背景
案例背景
某天,小C的表妹小Q来找小C,说他遇到一点困扰----小Q的同事给她介绍了一个对象Mr.Z,这个人现年37岁,在某省机关做文员工作,但是小Q的择偶标准是需要对方月薪在5w以上,不要说小Q拜金,只因世人都知软饭香,但是现在刚认识没多久,也就不好意思直接问Mr.z,所以拿不动主意要不要和Mr.z深入交往,(说白了就是不知道Mr.z到底有多少钱?),于是想让小C帮忙做一个决策,作为优秀的大数据分析师的小C,小C思忖良久,发现此事并不简单,还需要用到python,还需要搭建模型,于是小C一下子想到了决策树算法,通过联想,又想到了随机森林,灵光乍现,突然想起来一个好主意,于是他就开始了。。。。
数据集的准备
大家都知道一个著名的数据集-成年人数据集,包括千万条样本数据,样本数据中一般包括年龄,工作性质,统计权重,学历,受教育时长,婚姻状况,职业,家庭教育,种族,性别,资产所得,资产损失,每周工作时长,原籍,收入等,这个数据集应该有用,于是先下载看看。
下载链接:
源数据点击下载
下载完直接重命名为adult.csv,本来后缀是data,直接删掉,强行改为csv格式文档。
3.读取数据
import pandas as pd
data = pd.read_csv('D:\\Python\\adult.csv',header = None,index_col = False,
names = ['年龄','单位性质','权重','学历','受教育时长','婚姻状况','职业',
'家庭教育','种族','性别',
'资产所得','资产损失'