一、导入数据包
#首先导入pandas、numpy、matplotlib等等包
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
color = sns.color_palette()#调色盘,color=color[1]
#juypter要写
%matplotlib inline
#设置字体类型
import matplotlib
font={'family':'Microsoft YaHei'}
matplotlib.rc("font",family='Microsoft YaHei')
二、读取文件
#读取文件
titanic=pd.read_csv("titanic1.csv")
#查看表头
print(titanic.head())
#数据分别为乘客ID、生存、船舱等级、乘客名字、性别、年龄、兄弟姐妹、父母配偶、票号、票价、船舱、登舱口
#数据描述
print(titanic.describe())
#查看缺失值
print(titanic.isnull().any())
#年龄、船舱、登舱口有缺失
#描述信息
print(titanic.info())
#数据分布
print(titanic.shape)
三、数据处理-填补缺失值,删除无用列,数值转化
#1.删除</