使用sklearn机器学习方法预测泰坦尼克号生存率

数据分析一般有以下步骤:

        1、了解项目基本情况、提出问题;2、理解数据;3、数据清洗、准备;4、建模、训练; 5、模型的评估、预测;6、按项目要求收集结果数据;

下面我们就对泰坦尼克号沉船事件逐步进行分析。

一、了解项目基本情况、提出问题。

       泰坦尼克号沉船事件是世界上一次著名的海难,电影《泰坦尼克号》的成功也让这次事件得到了更广泛的传播,其具体经过不再赘述。在这里我们想做的事情是通过对泰坦尼克号沉船事件基础数据的整理和分析,通过机器学习的方法,是否能发现哪些因素影响生还率并通过模型对生还与否进行预测。

       我们先从kaggle官网下载相关数据。

查看对数据的解释。

可以看出对于我们需要预测的指标survival只有两个选项0和1,是一个二分类问题,本文使用逻辑回归模型来进行分类预测。

二、理解数据

首先导入前面已经下载的数据test.csv和train.csv,这里注意文件路径有中文需要使用open函数转换导入.

扫描下方二维码关注领取程序员必备千套ppt模板,300本精选好书,丰富面经:

有酒有风

结果展示

总结

 

  • 拿到项目一定先要了解清楚项目背景,理清思路
  • 构建分析和建模的框架
  • 多使用info/head/describe函数查看数据处理情况,以便发现问题及时改正
  • 对于某些项目、数据需要构建不同的模型、算法来训练和测试,通过不断优化来选择最合适的一个

 

  • 2
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值