记录一些学习的体会
贴一下学习的大佬的文章
把csv读成数据框以后啊,用info函数可以查看有哪些字段以及数据缺失的情况,describe则可以用来查看数据各个字段的四分位数均值标准差。
用matplot在jupyter中画图发现画的图太小了,可以用
fig.set_size_inches(18.5, 10.5)
而且这个大小也是在jupyter中显示的效果刚刚好
用随机森林去拟合缺失值。
loc用来定位数据框中的数据,比如:
df.loc[ (df.Age.isnull()), 'Age' ] = predictedAges就是把age为空的行和age列的那些数提出来赋值。
在源码中有这样一段代码
import sklearn.preprocessing as preprocessing
scaler = preprocessing.StandardScaler()
age_scale_param = scaler.fit(df['Age'])
df['Age_scaled'] = scaler.fit_transform(df['Age'], age_scale_param)
fare_scale_param = scaler.fit(df['Fare'])
df['Fare_scaled'] = scaler.fit_transform(df['Fare'], fare_scale_param)
df
然后在jupyter中就会报错,折腾了半天最后发现把所有的df['Age']变成df['Age'].values.reshape(-1,1)就可以了,可以在下图中看到
以及文章中说到的,我们用随机森林去拟合年龄确实是一件不太合理的事情,而且从分析的结果我们也可以看出,老人和小孩的获救几率是比较高的,如果知识给她一个回归系数的花,就只是一个正相关或者是负相关的关系,这是不符合我们的分析结果的。说不定把年龄离散化进行分段处理可能效果会更好(这段话对于我这样一个纯萌新来说感觉说的特别的好)。
模型融合。