kaggle实战——titanic分析

kaggle实战——titanic分析

一、数据集获取

登陆kaggle账号(注册流程),点击compete-All Competitions-选择all categories中的get started-在选择inclass,找到titanic案例。

二、数据集介绍

(一)下载数据集内容

有三个文件:train.csv,test.csv,gender_Submission.csv

第一个数据集是用于数据训练模型,当模型训练好之后,利用数据集二进行预测,最后提交预测的数据。最后一个数据集为提交示范,表示以性别预测船员存活的最终结果,我们可以添加其他特征变量使其更加精准。

(二)数据字段分析

可直接参见kaggle数据集的字段说明,英文并不是很复杂,可直接看,我就不翻译了。
在这里插入图片描述
在这里插入图片描述
三、数据可视化分析与特征选择

import pandas as pd
import matplotlib.pyplot as plt
train=pd.read_csv(r'C:\Users\lamiazhou\Desktop\python\project\titanic\train.csv')
test=pd.read_csv(r'C:\Users\lamiazhou\Desktop\python\project\titanic\test.csv')
print(train.info())
print("_________"*2)
print(test.info())
0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
__________________
 0   PassengerId  418 non-null    int64  
 1   Pclass       418 non-null    int64  
 2   Name         418 non-null    object 
 3   Sex          418 non-null    object 
 4   Age          332 non-null    float64
 5   SibSp        418 non-null    int64  
 6   Parch        418 non-null    int64  
 7   Ticket       418 no
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值