pandas的数据清洗的数据集下载_数据分析之Pandas操作(1)

最新推荐文章于 2022-12-06 17:07:20 发布

weixin_39964660

最新推荐文章于 2022-12-06 17:07:20 发布

阅读量617

点赞数

文章标签： pandas的数据清洗的数据集下载 pandas获取行号

Pandas是一款基于Python的快速、强大、灵活、易用的开源数据分析和操作工具。Pandas最新发布的官方文档可以在https://pandas.pydata.org/docs/pandas.pdf上下载，官方文档详细的介绍了每个Pandas的使用方法。如果想精通Pandas，全面仔细阅读官方文档一定是最有效的方法。然而，鉴于个人时间精力有限，大多数人可能无法完整阅读官方文档，但是这并不阻碍在实际使用过程先学习入门，再逐渐阅读文档进行扩展。

下面为大家整理了入门pandas常见操作。本文以titanic生存数据为例进行说明，本次先整理10个常见操作。

1、加载数据集，例如从csv文件读取，pandas支持许多不同的数据源，如csv, excel, sql, json，每个的前缀都是read_*，同样有很多参数大家可以自行到官方文档查询。

import pandas as pdtrain_data = pd.read_csv("titanic/train.csv")

2、加载完数据集后可以查看数据集的数据类型，是否为dataFrame

type(train_data)

3、查看数据中主键的长度

len(set(train_data['PassengerId'].values)) #去重后的数据长度len(train_data['PassengerId'].values)    #不去重数据长度

4、查看数据概况

train_data.info()       #字段名称，非空个数 数据类型train_data.describe().T  #最大值，最小值，中位数train_data.dtypes     #查看各列数据类型

5、查看数据缺失情况

train_data.isnull().sum().sort_values(ascending=False).head(4) #每个字段为空的行，按照空行数倒序排列

6、查看数据重复情况

train_data.nunique() / train_data.shape[0]  #shape[0]是数据集的行数

7、查看数据分布

train_data['Survived'].value_counts() #是否幸存 标签分布

8、通过列名称获取子列

name_df=train_data['Name'] #获取1列subset3_df=train_data[['Sex','Age','Name']] #获取3列，两个中括号

9、通过行名或行索引获取行子集

train_data.loc[[0,10,100]]  #loc 通过索引标签获得行子集(行名)train_data.iloc[[0,10,100]] #iloc 通过行索引获得行子集(行号)

10、获取多行和多列

train_data.iloc[[0,10,100],[3,4,5]]train_data.loc[[0,10,100],['Name','Sex','Age']]

学习的笨拙与耐心，许多学过知识都丢失了,为了记录学习过知识，公众号又开张了~

weixin_39964660

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫