文章目录
一、简介
这里简单介绍了创建Series和DataFrame的几种方法,这里简单介绍了查找数据的几种方法,这里简单介绍了pandas汇总和计算描述统计的几种方法。本文继续介绍一些pandas常用的属性、方法和函数。
二、常用的属性、方法和函数
先创建一个DataFrame,作为例子演示用。
import pandas as pd
data = {
'name': ['apolo', 'adm', 'bolon', 'ali', 'cathy', 'devn', 'elov'],
'age': [18, 29, 32, 28, 34, 19, None],
'sex': ['male', 'female', 'male', 'male', 'female', 'male', 'female'],
'weight': [67, 78, 87, 59, 90, 101, 78],
'height': [170, 189, 190, 179, None, 160, 185]}
df = pd.DataFrame(data, index=['a', 'b', 'c', 'd', 'e','f', 'g'])
df
输出:
name age sex weight height
a apolo 18.0 male 67 170.0
b adm 29.0 female 78 189.0
c bolon 32.0 male 87 190.0
d ali 28.0 male 59 179.0
e cathy 34.0 female 90 NaN
f devn 19.0 male 101 160.0
g elov NaN female 78 185.0
2.1 shape
返回Series和DataFrame的大小。
DataFrame
df.shape
输出:是个元组类型,可继续用df.shape[0]
获取第一个值,用df.shape[1]
获取第二个值
(7, 5)
Series
df['age'].shape
输出:是个元组类型,可继续用df.shape[0]
获取第一个值,但不能用df.shape[1]
获取第二个值
(7,)
2.2 排序
pandas中的排序一般用的比较多的有三种:索引排序——sort_index()
,值排序——sort_values
,排名——rank()
,接下来逐一介绍:
2.2.1 索引排序——sort_index()
索引排序,顾名思义就是将数据按照索引名进行排序,下面给出几个例子具体说明一下。
原DataFrame:
name age sex weight height
a apolo 18.0 male 67 170.0
i adm 29.0 female 78 189.0
c bolon 32.0 male 87 190.0
d ali 28.0 male 59 179.0
h cathy 34.0 female 90 NaN
f devn 19.0 male 101 160.0
g elov NaN female 78 185.0
df.sort_index()
输出:默认是对行索引进行升序排列。可通过设置axis=1
按照列索引名排序,此时会改变列的顺序,而不是行的顺序。可通过设置ascending=False
进行降序排列。默认的是不改变原df的顺序,可通过设置inplace=True
进行改变原df的顺序。Series也类似,只不过不能设置axis=1
。
name age sex weight height
a apolo 18.0 male 67 170.0
c bolon 32.0 male 87 190.0
d ali 28.0 male 59 179.0
f devn 19.0 male 101 160.0
g elov NaN female 78 185.0
h cathy