利用pandas进行数据分组及可视化
kaggle的Titanic数据集,给定了Titanic号邮轮的乘客的船舱等级(Pclass)、性别(Sex)、年龄(Age)、是否获救(Survived)等信息。希望能够用这些信息建立一个分类系统,来预测一个人是否会获救。
使用python,先导入numpy、pandas、matplotlib等库和数据train.csv
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from pandas import DataFrame,Series
data=pd.read_csv(r'D:\Titanic\train.csv')
data
data.info()
很明显Age是一个很重要的属性,不是都说“让老人和小孩先走”嘛。可惜在891个实例中,有177个人缺失了这个属性。所以我们希望可以用机器学习等方法来用其它数据推断出这几个人的大致年龄。将训练集补全,也是数据清洗的一部分。
这里我比较好奇Pclass和Age