kaggle比赛泰坦尼克号基于别人的处理流程的学习总结

最新推荐文章于 2024-01-22 05:58:01 发布

兔子Tony

最新推荐文章于 2024-01-22 05:58:01 发布

阅读量558

点赞数

分类专栏：机器学习文章标签：机器学习数据挖掘 Kaggle

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jibiqu2893/article/details/79990201

版权

本篇是基于kaggle上一位作者的学习流程学习所写的总结，应用的都是一些比较基础的操作，主要发力在数据处理方面，对算法的优化过程几乎没有，下面是原文链接：

https://www.kaggle.com/startupsci/titanic-data-science-solutions

首先定义宏观的工作流程：

  1.问题定义 

  2 .获取训练和测试集。 

  3.准备和清理数据。 

  4.分析，确认模式，并且处理数据。 

  5. 建模，预测和解决问题 

  6. 将解决步骤和最终解决方法可视化，报道并呈现出来 

  7. 提交结果 

问题定义：

这是一个拥有十几个特征，预测结果为二分类的预测问题。

载入数据：

省略

观察所有特征，并对其进行分类，大致有：

数字类：PassengerId, Survived(Survival, 0 = No, 1 = Yes), Pclass(Ticket class, 1 = 1st, 2 = 2nd, 3 = 3rd), Age(Age in years), Sibsp(# of siblings / spouses aboard the Titanic# of siblings / spouses aboard the Titanic), Parch(# of parents / children aboard the Titanic), Fare(Passenger fare)

其中分类型特征有Survived， Pclass。连续型特征有Age, Sibsp, Parch, Fare， PassengerId

字母类：Name， Embarked（Port of Embarkation， C = Cherbourg, Q = Queenstown, S = Southampton），Sex

其中Name为杂乱型，Embarked， Sex为分类型。

字母+数字类：Ticket（Ticket number）， Cabin（Cabin number）

考虑可能有错误的特征：名字非常复杂，意思可能有错误。

分类完成后进一步了解各个特征的空缺情况以及数据的类型特征，利用如下语句：

 
 train_df 
 . 
 info() 

 
 print 
 ( 
 '_' 
 * 
 40 
 ) 

 
 test_df 
 . 
 info() 

继续进行总览型操作如下：

 
 train_df 
 . 
 describe() 

以及：

 
 train_df 
 . 
 describe(include 
 = 
 [ 
 '0' 
 ]) 

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
kaggle比赛泰坦尼克号基于别人的处理流程的学习总结

本篇是基于kaggle上一位作者的学习流程学习所写的总结，应用的都是一些比较基础的操作，主要发力在数据处理方面，对算法的优化过程几乎没有，下面是原文链接：https://www.kaggle.com/startupsci/titanic-data-science-solutions首先定义宏观的工作流程： 1.问题定义 2 .获取训练和测试集。 3.准备和清理数据。 ...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。