本篇是基于kaggle上一位作者的学习流程学习所写的总结,应用的都是一些比较基础的操作,主要发力在数据处理方面,对算法的优化过程几乎没有,下面是原文链接:
https://www.kaggle.com/startupsci/titanic-data-science-solutions
首先定义宏观的工作流程:
问题定义:
这是一个拥有十几个特征,预测结果为二分类的预测问题。
载入数据:
省略
观察所有特征,并对其进行分类,大致有:
数字类:PassengerId, Survived(Survival, 0 = No, 1 = Yes), Pclass(Ticket class, 1 = 1st, 2 = 2nd, 3 = 3rd), Age(Age in years), Sibsp(# of siblings / spouses aboard the Titanic# of siblings / spouses aboard the Titanic), Parch(# of parents / children aboard the Titanic), Fare(Passenger fare)
其中分类型特征有Survived, Pclass。连续型特征有Age, Sibsp, Parch, Fare, PassengerId
字母类:Name, Embarked(Port of Embarkation, C = Cherbourg, Q = Queenstown, S = Southampton),Sex
其中Name为杂乱型,Embarked, Sex为分类型。
字母+数字类:Ticket(Ticket number), Cabin(Cabin number)
考虑可能有错误的特征:名字非常复杂,意思可能有错误。
分类完成后进一步了解各个特征的空缺情况以及数据的类型特征,利用如下语句:
继续进行总览型操作如下:
以及: