kaggle: Titanic: Machine Learning from Disaster

记录一些学习的体会

贴一下学习的大佬的文章

把csv读成数据框以后啊,用info函数可以查看有哪些字段以及数据缺失的情况,describe则可以用来查看数据各个字段的四分位数均值标准差。

用matplot在jupyter中画图发现画的图太小了,可以用

fig.set_size_inches(18.5, 10.5)

而且这个大小也是在jupyter中显示的效果刚刚好

用随机森林去拟合缺失值。

loc用来定位数据框中的数据,比如:

df.loc[ (df.Age.isnull()), 'Age' ] = predictedAges就是把age为空的行和age列的那些数提出来赋值。

在源码中有这样一段代码

import sklearn.preprocessing as preprocessing
scaler = preprocessing.StandardScaler()
age_scale_param = scaler.fit(df['Age'])
df['Age_scaled'] = scaler.fit_transform(df['Age'], age_scale_param)
fare_scale_param = scaler.fit(df['Fare'])
df['Fare_scaled'] = scaler.fit_transform(df['Fare'], fare_scale_param)
df
然后在jupyter中就会报错,折腾了半天最后发现把所有的df['Age']变成df['Age'].values.reshape(-1,1)就可以了,可以在下图中看到




以及文章中说到的,我们用随机森林去拟合年龄确实是一件不太合理的事情,而且从分析的结果我们也可以看出,老人和小孩的获救几率是比较高的,如果知识给她一个回归系数的花,就只是一个正相关或者是负相关的关系,这是不符合我们的分析结果的。说不定把年龄离散化进行分段处理可能效果会更好(这段话对于我这样一个纯萌新来说感觉说的特别的好)。

模型融合。


  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值