这个项目的目的:预测生还的人数。
最大的感悟:挖掘特征的方式。或者可以理解为:分析数据的方式。
文章的具体思路:
1.不考虑任何特征,直接预测全部生还时,模型的准确率为:60%
2.不考虑任何特征,直接预测全部死亡时,模型的准确率为:61.62%
3.考虑单一特征:
通过分析数据,可以发现,生还的人数中,女性的比例比较大,
因此,直接构建模型:女性全部生还,此时的准确率为:78.68%。
4.继续挖掘特征,考虑特征组合:
【这个时候有一个小技巧:针对错误大量的样本进行分析,准确率提升的快】
分析数据,发现:男性中,年龄小于10的人群中存活率较高,因此
继续修正模型,准确率为:79.35%。
5.按照此思路继续下去。
【总结:以上挖掘特征的方式为:决策树的方式】