Kaggle泰坦尼克号

Kaggle泰坦尼克号之灾 问题笔记

pandas 学习手册:https://www.yiibai.com/pandas/python_pandas_caveats_and_gotchas.html

pd.read_csv("***.csv")直接读取csv格式的文件,保存成DataFrame形式

pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)

objs 需要连接的对象,eg [df1, df2] , 注意这里的中括号

axis axis = 0, 表示在水平方向(row)进行连接 axis = 1, 表示在垂直方向(column)进行连接

join outer, 表示index全部需要; inner,表示只取index重合的部分

join_axes 传入需要保留的index

ignore_index 忽略需要连接的frame本身的index。当原本的index没有特别意义的时候可以使用

keys 可以给每个需要连接的df一个label,多重索引,一般少用

DataFrame格式的文件,可以通过.head()函数来显示其中的前5个样本(所有的列),可以通过.info(),查看文件的总的信息,便于查看列和缺失值。

DataFrame可以通过直接索引[“Survived”]访问列值,显示索引和列所在的值

.value_counts()函数,统计当前数据Frame中不同值的个数

在这里插入图片描述

import seaborn as sns 基于matplotlib的绘图工具,可以参考https://www.jianshu.com/p/8bb06d3fd21b

sns.barplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, estimator=(function mean), ci=95, n_boot=1000, units=None, orient=None, color=None, palette=None, saturation=0.75, errcolor=’.26’, errwidth=None, capsize=None, dodge=True, ax=None, **kwargs)

条形图上的误差棒则表示各类的数值相对于条形图所显示的值的误差

hue(str):dataframe的列名,按照列名中的值分类形成分类的条形图

order, hue_order (lists of strings):用于控制条形图的顺序

**ci(float): *允许的*误差的范围(控制误差棒的百分比,在0-100之间),若填写"sd",则误差棒用标准误差。(默认为95)

fig,axes=plt.subplots(1,2)  # 一定记得是subplots函数创建多副子图
sns.barplot(x="color",y="age",data=data,ci=0,ax=axes[0])  #左图
sns.barplot(x="color",y="age",data=data,ci="sd",ax=axes[1])  #右图

palette:调色板,控制不同的颜色style

fig,axes=plt.subplots(2,1)
sns.barplot(x="color",y="age",data=data,ax=axes[0])  #上图
sns.barplot(x="color",y="age",data=data,palette="Set3",ax=axes[1])  #下图

**capsize(float)😗*设置误差棒帽条

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值