kaggle比赛泰坦尼克号基于别人的处理流程的学习总结

本篇是基于kaggle上一位作者的学习流程学习所写的总结,应用的都是一些比较基础的操作,主要发力在数据处理方面,对算法的优化过程几乎没有,下面是原文链接:

https://www.kaggle.com/startupsci/titanic-data-science-solutions



首先定义宏观的工作流程:

1.问题定义
2 .获取训练和测试集。
3.准备和清理数据。
4.分析,确认模式,并且处理数据。
5. 建模,预测和解决问题
6. 将解决步骤和最终解决方法可视化,报道并呈现出来
7. 提交结果


问题定义:

    这是一个拥有十几个特征,预测结果为二分类的预测问题。


载入数据:

    省略


观察所有特征,并对其进行分类,大致有:


数字类:PassengerId, Survived(Survival,  0 = No, 1 = Yes), Pclass(Ticket class,  1 = 1st, 2 = 2nd, 3 = 3rd), Age(Age in years), Sibsp(# of siblings / spouses aboard the Titanic# of siblings / spouses aboard the Titanic), Parch(# of parents / children aboard the Titanic), Fare(Passenger fare)

        其中分类型特征有Survived, Pclass。连续型特征有Age,  Sibsp,   Parch,  Fare, PassengerId


字母类:Name,  Embarked(Port of Embarkation,  C = Cherbourg, Q = Queenstown, S = Southampton),Sex

         其中Name为杂乱型,Embarked, Sex为分类型。


字母+数字类:Ticket(Ticket number), Cabin(Cabin number


考虑可能有错误的特征:名字非常复杂,意思可能有错误。


分类完成后进一步了解各个特征的空缺情况以及数据的类型特征,利用如下语句:

        

train_df . info()
print ( '_' * 40 )
test_df . info()

继续进行总览型操作如下:

train_df . describe()

以及:

train_df . describe(include = [ '0' ])
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值