kaggle: Titanic: Machine Learning from Disaster

最新推荐文章于 2024-01-27 13:16:35 发布

景天的天

最新推荐文章于 2024-01-27 13:16:35 发布

阅读量445

点赞数 1

分类专栏： data mining

本文链接：https://blog.csdn.net/WhereYouSink/article/details/78776632

版权

data mining 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

记录一些学习的体会

贴一下学习的大佬的文章

把csv读成数据框以后啊，用info函数可以查看有哪些字段以及数据缺失的情况，describe则可以用来查看数据各个字段的四分位数均值标准差。

用matplot在jupyter中画图发现画的图太小了，可以用

fig.set_size_inches(18.5, 10.5)

而且这个大小也是在jupyter中显示的效果刚刚好

用随机森林去拟合缺失值。

loc用来定位数据框中的数据，比如：

df.loc[ (df.Age.isnull()), 'Age' ] = predictedAges就是把age为空的行和age列的那些数提出来赋值。

在源码中有这样一段代码

import sklearn.preprocessing as preprocessing
scaler = preprocessing.StandardScaler()
age_scale_param = scaler.fit(df['Age'])
df['Age_scaled'] = scaler.fit_transform(df['Age'], age_scale_param)
fare_scale_param = scaler.fit(df['Fare'])
df['Fare_scaled'] = scaler.fit_transform(df['Fare'], fare_scale_param)
df

然后在jupyter中就会报错，折腾了半天最后发现把所有的df['Age']变成df['Age'].values.reshape(-1,1)就可以了，可以在下图中看到

以及文章中说到的，我们用随机森林去拟合年龄确实是一件不太合理的事情，而且从分析的结果我们也可以看出，老人和小孩的获救几率是比较高的，如果知识给她一个回归系数的花，就只是一个正相关或者是负相关的关系，这是不符合我们的分析结果的。说不定把年龄离散化进行分段处理可能效果会更好（这段话对于我这样一个纯萌新来说感觉说的特别的好）。

模型融合。

景天的天

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
kaggle: Titanic: Machine Learning from Disaster

记录一些学习的体会贴一下学习的大佬的文章把csv读成数据框以后啊，用info函数可以查看有哪些字段以及数据缺失的情况，describe则可以用来查看数据各个字段的四分位数均值标准差。用matplot在jupyter中画图发现画的图太小了，可以用fig.set_size_inches(18.5, 10.5)而且这个大小也是在jupyter中显示的效果刚刚好用随机森林去拟合缺失
复制链接

扫一扫

专栏目录