Kaggle 入门 Titanic: Machine Learning from Disaster(1)数据分析和处理

本文是Kaggle Titanic数据集的初步分析和处理,包括数据集介绍、缺失值处理、特征工程以及数据归一化。研究发现,生存率与票务舱位、票价等相关,而性别对生存率影响显著。对缺失值的处理,如年龄使用随机森林模型填充,Cabin特征因缺失过多,将其分为有记录和无记录两类。最后进行了独热编码和归一化操作。
摘要由CSDN通过智能技术生成

数据集及分析

泰坦尼克号的故事大家都耳熟能详,具体就不说了,这个题目是Kaggle的入门题目,关注点在通过题目给定的乘客信息,推断乘客能否在海难中生存下来。

数据有三个csv文件,一个训练集,一个测试集,还有一个答案模板(按照性别作为划分依据的答案)
数据特征:
survival:label,是否存活
plclass:票务舱情况,分三档,top,middle,low(1,2,3)
sex:性别
Age:年龄
sibsp:是xx的兄弟
parch:是xx的父母/子女 这两个是身份信息,同船上有多少亲人
ticket:票号(我个人觉得这个和最后结果应该相关性不高)
fare:费用,乘客票价
cabin:舱数
embarked:上船地点(港口)
利用pandas导入数据

import numpy as np 
import pandas as pd 

data =pd.read_csv("train.csv")
data.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Se
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值