基于titanic数据集的分类器构建---(二)特征选择

目录

分析数据关系

1.pclass与survived的关系

2.sex与survived的关系

3.age与survived的关系

4.sibsp与survived的关系

5.Parch与survived的关系

6.Embarked与survived的关系

 结论

特征处理


1.pclass与survived的关系

xy[['Survived','Pclass']].groupby(['Pclass']).mean().plot.bar()
plt.show()

2.sex与survived的关系

xy[['Sex','Survived']].groupby(['Sex']).mean().plot.bar()
plt.show()

 

3.age与survived的关系

先看看age的分布

 通过这个箱型图可以发现,中位线在28岁左右,下四分位线20岁,上四分位线38岁;每个部分分别包含了25%的数据

 

4.sibsp与survived的关系

xy[['SibSp','Survived']].groupby(['SibSp']).mean().plot.bar()
plt.show()

 

5.Parch与survived的关系

 

6.Embarked与survived的关系

sns.countplot('Embarked',hue='Survived',data=xy)
plt.title('Embarked and Survived')
plt.show()

 

 结论

变量定义key结论:是否选做特征值
survivalSurvival0 = No, 1 = Yes
pclassTicket class1 = 1st, 2 = 2nd, 3 = 3rd高级的船舱的生存几率高
sexSex女性生存几率高
AgeAge in years青壮年的生存几率高
sibsp# of siblings / spouses aboard the Titanic配偶或亲戚个数少的生存几率高
parch# of parents / children aboard the Titanic同行的父母子女人数少的生存几率高
ticketTicket number不做特征
farePassenger fare票价与船舱等级相匹配,因而选择船舱等级作为特征值
cabinCabin number由于缺失值太多,不选做特征值
embarkedPort of EmbarkationC = Cherbourg, Q = Queenstown, S = Southampton不同的上船地点生存几率相差不多

特征处理

在选出pclass、sex、age、sibsp、parch做特征后,将这些属性做处理。

 #变量转换
        train_data = xy[['Pclass','Sex','Age','SibSp','Parch','Survived']]
        train_data.loc[train_data['Sex'] == 'male', 'Sex'] = 0
        train_data.loc[train_data['Sex'] == 'female', 'Sex'] = 1


        X_age = np.array(train_data['Age']).reshape(-1,1)#直接变成一列
        train_data['Age'] = StandardScaler().fit_transform(X_age)

        print(train_data.head())

结果显示

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值