一、内容介绍:
这一实例要求如下,在失事的泰坦上面,有若干乘客,公司有这些乘客的基本信息,比如年龄,性别等。
泰坦虽然沉了,但是仍然有乘客得以逃生,题目将所有乘客分为两类(活下来的以及失事的),给出了另外一项数据就是此人存活与否。
实例要求我们,根据这次事件的乘客数据和存活数据进行分析预测,判断接下来给出的四百多名乘客能否存活。
这里主要记录大致流程,仅作为个人学习笔记。
二、工具材料需求:
使用以下工具:
python及以下模块:
pandas、numpy、matplotlib、scikit-learn
其余数据材料取自kaggle
三、流程说明:
1.读取历史数据:
这一步使用pandas实现,如pandas.read_csv("...路径...")
2.观察、分析历史数据:
使用matploylib画图,对数据有一个感官上的认识,每次可以提取自己认为有关联的数据,进行绘图,多使用mean、sum等函数,从而对数据有多方面的认识。
3.数据处理:
对混乱的数据进行整理,比如,将文字信息数字化(人为定义),将散乱的数字信息(最大最小跨度比较大的数)归一化
4.训练历史数据:
数据处理完了以后,会显得整洁很多,此时就可以进行训练了,scikit-learn能够胜任训练工作。训练结束得到模型A。
5.处理测试数据:
待测试数据同样是混乱的,我们需要对其进行类似前面的处理,操作基本相同。
6.开始预测:
使用前面训练出的模型A对测试数据进行预测。任务完成。