Kaggle 入门 Titanic: Machine Learning from Disaster(1)数据分析和处理

最新推荐文章于 2022-05-05 08:56:02 发布

菜逼庄水水

最新推荐文章于 2022-05-05 08:56:02 发布

阅读量294

点赞数

分类专栏：计划

本文链接：https://blog.csdn.net/qq_33604355/article/details/98478856

版权

本文是Kaggle Titanic数据集的初步分析和处理，包括数据集介绍、缺失值处理、特征工程以及数据归一化。研究发现，生存率与票务舱位、票价等相关，而性别对生存率影响显著。对缺失值的处理，如年龄使用随机森林模型填充，Cabin特征因缺失过多，将其分为有记录和无记录两类。最后进行了独热编码和归一化操作。

摘要由CSDN通过智能技术生成

数据集及分析

泰坦尼克号的故事大家都耳熟能详，具体就不说了，这个题目是Kaggle的入门题目，关注点在通过题目给定的乘客信息，推断乘客能否在海难中生存下来。

数据有三个csv文件，一个训练集，一个测试集，还有一个答案模板（按照性别作为划分依据的答案）
数据特征：
survival:label，是否存活
plclass:票务舱情况，分三档，top,middle,low(1,2,3)
sex:性别
Age:年龄
sibsp:是xx的兄弟
parch:是xx的父母/子女这两个是身份信息，同船上有多少亲人
ticket:票号（我个人觉得这个和最后结果应该相关性不高）
fare:费用，乘客票价
cabin:舱数
embarked：上船地点（港口）
利用pandas导入数据

import numpy as np 
import pandas as pd 

data =pd.read_csv("train.csv")
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Se