pandas的数据清洗的数据集下载_数据分析之Pandas操作(1)

Pandas是一款基于Python的快速、强大、灵活、易用的开源数据分析和操作工具。Pandas最新发布的官方文档可以在https://pandas.pydata.org/docs/pandas.pdf上下载,官方文档详细的介绍了每个Pandas的使用方法。如果想精通Pandas,全面仔细阅读官方文档一定是最有效的方法。然而,鉴于个人时间精力有限,大多数人可能无法完整阅读官方文档,但是这并不阻碍在实际使用过程先学习入门,再逐渐阅读文档进行扩展。

下面为大家整理了入门pandas常见操作。本文以titanic生存数据为例进行说明,本次先整理10个常见操作。

1、加载数据集,例如从csv文件读取,pandas支持许多不同的数据源,如csv, excel, sql, json,每个的前缀都是read_*,同样有很多参数大家可以自行到官方文档查询。

import pandas as pdtrain_data = pd.read_csv("titanic/train.csv")

2、加载完数据集后可以查看数据集的数据类型,是否为dataFrame

type(train_data)

3、查看数据中主键的长度

len(set(train_data['PassengerId'].values)) #去重后的数据长度len(train_data['PassengerId'].values)    #不去重数据长度

4、查看数据概况

train_data.info()       #字段名称,非空个数 数据类型train_data.describe().T  #最大值,最小值,中位数train_data.dtypes     #查看各列数据类型

500f55d67fabcca998a4f549901c793e.png

c23258ea16bd92998d19f37d6e1eb7c9.png

cde76b392170970eab58891982b810c4.png

5、查看数据缺失情况

train_data.isnull().sum().sort_values(ascending=False).head(4) #每个字段为空的行,按照空行数倒序排列

7fd7c9c635b5d7af99ace036efe99597.png

6、查看数据重复情况

train_data.nunique() / train_data.shape[0]  #shape[0]是数据集的行数

fd2ecab6e2d0a76781622d7a4e9207ad.png

7、查看数据分布

train_data['Survived'].value_counts() #是否幸存 标签分布

e3e3fc552fef8aab9b5ae4e137df3d7a.png

8、通过列名称获取子列

name_df=train_data['Name'] #获取1列subset3_df=train_data[['Sex','Age','Name']] #获取3列,两个中括号

9、通过行名或行索引获取行子集

train_data.loc[[0,10,100]]  #loc 通过索引标签获得行子集(行名)train_data.iloc[[0,10,100]] #iloc 通过行索引获得行子集(行号)

10、获取多行和多列

train_data.iloc[[0,10,100],[3,4,5]]train_data.loc[[0,10,100],['Name','Sex','Age']]

0ed85fc76b03f3f3aa77bac15d2600d2.png

学习的笨拙与耐心,许多学过知识都丢失了,为了记录学习过知识,公众号又开张了~
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值