Kaggle泰坦尼克号

这篇博客记录了Kaggle泰坦尼克号问题的数据预处理和分析过程,涉及pandas的DataFrame操作,如数据读取、缺失值处理、特征提取与归类。使用了seaborn进行数据可视化,包括条形图、核密度图和FacetGrid。通过lambda表达式和map函数处理乘客的称谓,进行one-hot编码,并应用RandomForestClassifier进行模型训练。
摘要由CSDN通过智能技术生成

Kaggle泰坦尼克号之灾 问题笔记

pandas 学习手册:https://www.yiibai.com/pandas/python_pandas_caveats_and_gotchas.html

pd.read_csv("***.csv")直接读取csv格式的文件,保存成DataFrame形式

pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)

objs 需要连接的对象,eg [df1, df2] , 注意这里的中括号

axis axis = 0, 表示在水平方向(row)进行连接 axis = 1, 表示在垂直方向(column)进行连接

join outer, 表示index全部需要; inner,表示只取index重合的部分

join_axes 传入需要保留的index

ignore_index 忽略需要连接的frame本身的index。当原本的index没有特别意义的时候可以使用

keys 可以给每个需要连接的df一个label,多重索引,一般少用

DataFrame格式的文件,可以通过.head()函数来显示其中的前5个样本(所有的列),可以通过.info(),查看文件的总的信息,便于查看列和缺失值。

DataFrame可以通过直接索引[“Survived”]访问列值,显示索引和列所在的值

.value_counts()函数,统计当前数据Frame中不同值的个数

在这里插入图片描述

import seaborn as sns 基于matplotlib的绘图工具,可以参考https://www.jianshu.com/p/8bb06d3fd21b

sns.barplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, estimator=(function mean), ci=95, n_boot=1000, units=None, orient=None, color=None, palette=None, saturation=0.75, errcolor=’.26’, errwidth=None, capsize=None, dodge=True, ax=None, **kwargs)

条形图上的误差棒则表示各类的数值相对于条形图所显示的值的误差

hue(str):dataframe的列名,按照列名中的值分类形成分类的条形图

order, hue_order (lists of strings):用于控制条形图的顺序

**ci(float): *允许的*误差的范围(控制误差棒的百分比,在0-100之间),若填写"sd",则误差棒用标准误差。(默认为95)

fig,axes=plt.subplots(1,2)  # 一定记得是subplots函数创建多副子图
sns.barplot(x="color",y="age",data=data,ci=0,ax=axes[0])  #左图
sns.barplot(x="color",y="age",data=data,ci="sd",ax=axes[1])  #右图

palette:调色板,控制不同的颜色style

fig,axes=plt.subplots(2,1)
sns.barplot(x="color",y="age",data=data,ax=axes[0])  #上
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值