1. 问题分析
监督学习中的分类问题,借助年龄、性别、费用等特征,预测乘客能否存活。
2. 特征工程
2.1 原始特征
- PassengerId,乘客编号,几乎没有影响;
- Survived,能否生存,目标列;
- Pclass,船舱等级,高级別客舱生存率可能高;
- Name,姓名,几乎没有影响;
- Sex,性别,影响体力体质、道德准则等;
- Age,年龄,影响体力体质、道德准则等;
- SibSp,兄弟姐妹数量,影响互救、拖累等;
- Parch,父母子女数量,影响互救、拖累等;
- Ticket,船票编号,几乎没有影响;
- Fare,船票费用,影响客舱等级等;
- Cabin,舱号,可能影响客舱位置,但是缺失值太多,也没有确定客舱位置的其他数据,只能放弃该列;
- Embarked,上船地点,影响经济水平、社会地位等。
2.2 加工特征
- FamilySize,家庭规模,影响互救、拖累等;
- NameLength,名字长度,竟然有影响,很迷;
- Title,地位头衔,影响社会地位。
3. 算法选择
3.1 线性回归
https://www.cnblogs.com/geo-will/p/10468253.html
3.2 逻辑回归
https://www.cnblogs.com/geo-will/p/10468356.html
3.3 随机森林
https://www.zhihu.com/question/64043740/answer/644998828
3.4 梯度提升
https://microstrong.blog.csdn.net/article/details/103060416