Kaggle泰坦尼克号之灾 问题笔记
pandas 学习手册:https://www.yiibai.com/pandas/python_pandas_caveats_and_gotchas.html
pd.read_csv("***.csv")直接读取csv格式的文件,保存成DataFrame形式
pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)
objs 需要连接的对象,eg [df1, df2] , 注意这里的中括号
axis axis = 0, 表示在水平方向(row)进行连接 axis = 1, 表示在垂直方向(column)进行连接
join outer, 表示index全部需要; inner,表示只取index重合的部分
join_axes 传入需要保留的index
ignore_index 忽略需要连接的frame本身的index。当原本的index没有特别意义的时候可以使用
keys 可以给每个需要连接的df一个label,多重索引,一般少用
DataFrame格式的文件,可以通过.head()函数来显示其中的前5个样本(所有的列),可以通过.info(),查看文件的总的信息,便于查看列和缺失值。
DataFrame可以通过直接索引[“Survived”]访问列值,显示索引和列所在的值
.value_counts()函数,统计当前数据Frame中不同值的个数
import seaborn as sns 基于matplotlib的绘图工具,可以参考https://www.jianshu.com/p/8bb06d3fd21b
sns.barplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, estimator=(function mean), ci=95, n_boot=1000, units=None, orient=None, color=None, palette=None, saturation=0.75, errcolor=’.26’, errwidth=None, capsize=None, dodge=True, ax=None, **kwargs)
条形图上的误差棒则表示各类的数值相对于条形图所显示的值的误差
hue(str):dataframe的列名,按照列名中的值分类形成分类的条形图
order, hue_order (lists of strings):用于控制条形图的顺序
**ci(float): *允许的*误差的范围(控制误差棒的百分比,在0-100之间),若填写"sd",则误差棒用标准误差。(默认为95)
fig,axes=plt.subplots(1,2) # 一定记得是subplots函数创建多副子图
sns.barplot(x="color",y="age",data=data,ci=0,ax=axes[0]) #左图
sns.barplot(x="color",y="age",data=data,ci="sd",ax=axes[1]) #右图
palette:调色板,控制不同的颜色style
fig,axes=plt.subplots(2,1)
sns.barplot(x="color",y="age",data=data,ax=axes[0]) #上