给出不同性别乘客生存情况如表3-5所示。
表3-5不同性别生存统计
male female
0 468 81
1 109 233
使用python中的matplotlib库将表3-5中数据进行可视化,并计算不同性别的生存率如图3-3所示。
图3-3 不同性别生存情况
由图3-2可以看出,泰坦尼克号上所有乘客信息中,男性乘客约为女性乘客的二倍,但是男性乘客的幸存率却仅仅只有20%左右,女性乘客的幸存率却达到了70%多。现实中男性各项体能通常高于女性,但在此次时间中,女性幸存了却远高于男生,因此应考虑到当时采取了女性优先撤离原则。
给出不同登陆舱口与乘客生存率之间统计情况如表3-4所示
表3-6不同登陆舱口生存统计
Embarked_C Embarked_S Embarked_Q
0 75 427 47
1 93 219 30
使用python中的matplotlib库将表3-6中数据进行可视化,并计算不同登陆舱口的生存率如图3-4所示。
图3-4 不同登陆船舱的生存情况
给出不同船票价格区间与乘客生存率之间统计情况,首先将船票费用分为四个区间,分别为[0,8]、[8,15]、[15,31]、[31,600]这四个左闭右开的区间,详细统计信息如表3-7所示。
表3-7 不同票价区间生存统计
0-8 8-15 15-31 31-600
0 175 155 112 93
1 51 62 99 129
使用python中的matplotlib库将表3-7中数据进行可视化,并计算不同票价区间的生存率如图3-5所示。
图3-5 不同登陆船舱的生存情况
给出不同家庭区间的与乘客生存率之间统计情况,其中Family_Single代表家庭人数小于等于1的乘客,Family_Small代表家庭人数大于1小于4时的乘客,Family_Large代表家庭人数大于4的乘客数目,详细统计信息如表3-8所示。
表3-8 不同家庭人数生存统计
Family_Single Family_Small Family_Large
0 374 123 52
1 163 169 10
使用python中的matplotlib库将表3-8中数据进行可视化,并计算不同家庭区间的人数与生存率关系如图3-6所示。
图3-6 不同家庭区间的生存情况
给出不同年龄与乘客生存率之间统计情况,详细统计信息如图3-7所示。
图3-7 不同年龄的生存情况
说明:准确率为所有预测正确的数目占总数的比例;精确率即正确预测为正的数目与全部预测为正的总数的比例;召回率即正确预测为正的数目占全部实际为正的的总数的比例;F1值为算数平均数除以几何平均数,是对准确率和召回率的一种加权表示。
本文事先对初始数据集进行清洗和特征提取等操作,保证了数据中不存在大量缺失数值,缺失值处理时也以比较缓和的数值进行填充,避免了极端值对逻辑回归模型的影响,使得数据更加精确化。由表3-3也可以看出在该数据集下,逻辑回归模型各项指标均高于决策树且稳定性较好,即应选用逻辑回归作为预测模型。至此,即完成了模型的所有工作,该模型同样可用于同类事件的生存预测中,只需调整对应的数据处理部分即可。