Python数据分析处理库——Pandas

最新推荐文章于 2024-05-02 08:01:37 发布

韩明宇

最新推荐文章于 2024-05-02 08:01:37 发布

阅读量932

点赞数 1

分类专栏： Python

Python 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

原文：https://www.cnblogs.com/nxld/p/6058591.html

数据结构简介：DataFrame 和 Series

5.聚合：通过groupby()函数实现数据的聚合操作

数据结构简介：DataFrame 和 Series

pandas中有两类非常重要的数据结构，就是序列Series和数据框DataFrame.

Series类似于NumPy中的一维数组，可以使用一维数组的可用函数和方法，而且还可以通过索引标签的方式获取数据，还具有索引的自动对齐功能。

DataFrame类似于numpy中的二维数组，同样可以使用numpy数组的函数和方法，还具有一些其它灵活的使用。

1.Series的创建

序列的创建主要有三种方式：

(1)通过一维数组创建序列

import pandas as pd
import numpy as np

arr1=np.arange(10)
print("数组arr1：",arr1)
print("arr1的数据类型：",type(arr1))

s1=pd.Series(arr1)
print("序列s1:\n",s1)
print("s1的数据类型：",type(s1))

数组arr1： [0 1 2 3 4 5 6 7 8 9]
arr1的数据类型： <class 'numpy.ndarray'>
序列s1:
 0    0
1    1
2    2
3    3
4    4
5    5
6    6
7    7
8    8
9    9
dtype: int32
s1的数据类型： <class 'pandas.core.series.Series'>

(2)通过字典的方式创建序列

dict1={'a':1,'b':2,'c':3,'d':4,'e':5}
print("字典dict1：",dict1)
print("dict1的数据类型：",type(dict1))

s2=pd.Series(dict1)
print("序列s2：",s2)
print("s2的数据类型：",type(s2))

字典dict1： {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
dict1的数据类型： <class 'dict'>
序列s2： a    1
b    2
c    3
d    4
e    5
dtype: int64
s2的数据类型： <class 'pandas.core.series.Series'>

(3)通过DataFrame中的某一行或某一列创建序列

2.DataFrame的创建

数据框的创建主要有三种方式：

(1)通过二维数组创建数据框

print("第一种方法创建DataFrame")
arr2=np.array(np.arange(12)).reshape(4,3)
print("数组2：",arr2)
print("数组2的类型",type(arr2))

df1=pd.DataFrame(arr2)
print("数据框1：\n",df1)
print("数据框1的类型：",type(df1))

第一种方法创建DataFrame
数组2： [[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
数组2的类型 <class 'numpy.ndarray'>
数据框1：
    0   1   2
0  0   1   2
1  3   4   5
2  6   7   8
3  9  10  11
数据框1的类型： <class 'pandas.core.frame.DataFrame'>

(2)通过字典的方式创建数据框

字典列表：

print("第二种方法创建DataFrame")
dict2={'a':[1,2,3,4],'b':[5,6,7,8],'c':[9,10,11,12],'d':[13,14,15,16]}
print("字典2-字典列表：",dict2)
print("字典2的类型",type(dict2))

df2=pd.DataFrame(dict2)
print("数据框2：\n",df2)
print("数据框2的类型：",type(df2))

第二种方法创建DataFrame
字典2-字典列表： {'a': [1, 2, 3, 4], 'b': [5, 6, 7, 8], 'c': [9, 10, 11, 12], 'd': [13, 14, 15, 16]}
字典2的类型 <class 'dict'>
数据框2：
    a  b   c   d
0  1  5   9  13
1  2  6  10  14
2  3  7  11  15
3  4  8  12  16
数据框2的类型： <class 'pandas.core.frame.DataFrame'>

嵌套字典：

dict3={'one':{'a':1,'b':2,'c':3,'d':4},
      'two':{'a':5,'b':6,'c':7,'d':8},
      'three':{'a':9,'b':10,'c':11,'d':12}}
print("字典3-嵌套字典：",dict3)
print("字典3的类型",type(dict3))

df3=pd.DataFrame(dict3)
print("数据框3：\n",df3)
print("数据框3的类型：",type(df3))

字典3-嵌套字典： {'one': {'a': 1, 'b': 2, 'c': 3, 'd': 4}, 'two': {'a': 5, 'b': 6, 'c': 7, 'd': 8}, 'three': {'a': 9, 'b': 10, 'c': 11, 'd': 12}}
字典3的类型 <class 'dict'>
数据框3：
    one  two  three
a    1    5      9
b    2    6     10
c    3    7     11
d    4    8     12
数据框3的类型： <class 'pandas.core.frame.DataFrame'>

(3)通过数据框的方式创建数据框

print("第三种方法创建DataFrame")

df4=df3[['one','three']]
print("数据框4：\n",df4)
print("数据框4的类型：",type(df4))

第三种方法创建DataFrame
数据框4：
    one  three
a    1      9
b    2     10
c    3     11
d    4     12
数据框4的类型： <class 'pandas.core.frame.DataFrame'>

1.(3)通过DataFrame中的某一行或某一列创建序列

直接拿出数据框3中第一列：

s3=df3['one'] #直接拿出数据框3中第一列
print("序列3：\n",s3)
print("序列3的类型：",type(s3))

序列3：
 a    1
b    2
c    3
d    4
Name: one, dtype: int64
序列3的类型： <class 'pandas.core.series.Series'>

直接拿出数据框3中第一行--iloc：

s4=df3.iloc[0] #df3['a'] #直接拿出数据框3中第一行--iloc
print("序列4：\n",s4)
print("序列4的类型：",type(s4))

序列4：
 one      1
two      5
three    9
Name: a, dtype: int64
序列4的类型： <class 'pandas.core.series.Series'>

数据索引index

无论数据框还是序列，最左侧始终有一个非原始数据对象，这个就是接下来要介绍的数据索引。通过索引获取目标数据，对数据进行一系列的操作。

1.通过索引值或索引标签获取数据

s5=pd.Series(np.array([1,2,3,4,5,6]))
print(s5)

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int32

如果不给序列一个指定索引值，序列会自动生成一个从0开始的自增索引。可以通过index查看序列的索引：

s5.index

RangeIndex(start=0, stop=6, step=1)

现在我们为序列设定一个自定义的索引值：

s5.index=['a','b','c','d','e','f'] #为index重新赋值
s5

a    1
b    2
c    3
d    4
e    5
f    6
dtype: int32

序列有了索引，就可以通过索引值或索引标签进行数据的获取：

print("s5[3]:\n", s5[3], "\n")
print("s5['e']:\n", s5['e'], "\n")
print("s5[[1,3,5]]:\n", s5[[1,3,5]], "\n")
print("s5[:4]:\n", s5[:4], "\n")
print("s5['c':]:\n", s5['c':], "\n")
print("s5['b':'e']:\n", s5['b':'e'], "\n")

s5[3]:
 4 

s5['e']:
 5 

s5[[1,3,5]]:
 b    2
d    4
f    6
dtype: int64 

s5[:4]:
 a    1
b    2
c    3
d    4
dtype: int64 

s5['c':]:
 c    3
d    4
e    5
f    6
dtype: int64 

s5['b':'e']:
 b    2
c    3
d    4
e    5
dtype: int64

千万注意：如果通过索引标签获取数据的话，末端标签所对应的值是可以返回的！在一维数组中，就无法通过索引标签获取数据，这也是序列不同于一维数组的一个方面。

2.自动化对齐

如果有两个序列，需要对这两个序列进行算术运算，这时索引的存在就体现的它的价值了—自动化对齐。

s6=pd.Series(np.array([10,15,20,30,55,80]),index=['a','b','c','d','e','f'])
print("序列6：",s6)
s7=pd.Series(np.array([12,11,13,15,14,16]),index=['a','c','g','b','d','f'])
print("序列7：",s7)

序列6： a    10
b    15
c    20
d    30
e    55
f    80
dtype: int32
序列7： a    12
c    11
g    13
b    15
d    14
f    16
dtype: int32

print(s6+s7)
print(s6/s7)

a    22.0
b    30.0
c    31.0
d    44.0
e     NaN
f    96.0
g     NaN
dtype: float64
a    0.833333
b    1.000000
c    1.818182
d    2.142857
e         NaN
f    5.000000
g         NaN
dtype: float64

s6中不存在g索引，s7中不存在e索引，所以数据运算会产生两个缺失值NaN。可以注意到这里的算术运算自动实现了两个序列的自动对齐。对于数据框的对齐，不仅是行索引的自动对齐，同时也会对列索引进行自动对齐，数据框相当于二维数组的推广。

利用pandas查询数据

这里的查询数据相当于R语言里的subset功能，可以通过布尔索引有针对的选取原数据的子集、指定行、指定列等。我们先导入一个student数据集：

student = pd.io.parsers.read_csv('student.csv')

查询数据的前5行或末尾5行：

student.head()
student.tail()

查询指定的行，这里的ix索引标签函数必须是中括号[]：

student.ix[[0,2,4,5,7]]

查询指定的列，如果多个列的话，必须使用双重中括号：

student[['Name','Height','Weight']].head()

也可以通过ix索引标签查询指定的列：

student.ix[:,['Name','Height','Weight']].head()

查询指定的行和列：

student.ix[[0,2,4,5,7],['Name','Height','Weight']].head()

以上是从行或列的角度查询数据的子集，现在我们来看看如何通过布尔索引实现数据的子集查询。
查询所有女生的信息：

student[student['Sex']=='F']

查询出所有12岁以上的女生信息：

student[(student['Sex']=='F') & (student['Age']>12)]

查询出所有12岁以上的女生姓名、身高和体重：

student[(student['Sex']=='F') & (student['Age']>12)][['Name','Height','Weight']]

上面的查询逻辑其实非常的简单，需要注意的是，如果是多个条件的查询，必须在&（且）或者|（或）的两端条件用括号括起来。

统计分析

pandas模块为我们提供了非常多的描述性统计分析的指标函数，如总和、均值、最小值、最大值等：

a=np.random.normal(size=10)
d1=pd.Series(2*a+3)
d2=np.random.f(2,4,size=10)
d3=np.random.randint(1,100,size=10)
print(d1)
print(d2)
print(d3)

0    5.811077
1    2.963418
2    2.295078
3    0.279647
4    6.564293
5    1.146455
6    1.903623
7    1.157710
8    2.921304
9    2.397009
dtype: float64
[0.18147396 0.48218962 0.42565903 0.10258942 0.55299842 0.10859328
 0.66923199 1.18542009 0.12053079 4.64172891]
[33 17 71 45 33 83 68 41 69 23]

print("非空元素的计算:", d1.count())
print("最小值:", d1.min())
print("最大值:", d1.max())
print("最小值的位置:", d1.idxmin())
print("最大值的位置:", d1.idxmax())
print("10%分位数:", d1.quantile(0.1))
print("求和:", d1.sum())
print("平均数:", d1.mean())
print("中位数:", d1.median())
print("众数:", d1.mode())
print("方差:", d1.var())
print("标准差:", d1.std())
print("平均绝对偏差:", d1.mad())
print("偏度:", d1.skew())
print("峰度:", d1.kurt())
print("一次性输出多个描述性统计指标:", d1.describe())

非空元素的计算: 10
最小值: -0.11637919067128388
最大值: 5.649164574730916
最小值的位置: 0
最大值的位置: 9
10%分位数: 0.10224031600444726
求和: 24.301138139072435
平均数: 2.4301138139072433
中位数: 2.435626709867196
众数: 0   -0.116379
1    0.126531
2    0.901137
3    0.958300
4    1.935966
5    2.935288
6    3.231236
7    4.302453
8    4.377442
9    5.649165
dtype: float64
方差: 3.8995930522150966
标准差: 1.97473873011472
平均绝对偏差: 1.6690029678641687
偏度: 0.22234098279559492
峰度: -1.254241127357933
一次性输出多个描述性统计指标: count    10.000000
mean      2.430114
std       1.974739
min      -0.116379
25%       0.915427
50%       2.435627
75%       4.034649
max       5.649165
dtype: float64

必须注意的是，descirbe方法只能针对序列或数据框，一维数组是没有这个方法的。

这里自定义一个函数，将这些统计描述指标全部汇总到一起：

def stats(x):
    return pd.Series([x.count(),x.min(),x.idxmin(),x.quantile(.25),x.median(),
                     x.quantile(.75),x.mean(),x.max(),x.idxmax(),x.mad(),x.var(),x.std(),x.skew(),x.kurt()],
                     index=['Count','Min','Which_Min','Q1','Median','Q3','Mean','Max','Which_Max','Mad','Var','Std','Skew',
                           'Kurt'])

stats(d1)

Count        10.000000
Min           0.279647
Which_Min     3.000000
Q1            1.344189
Median        2.346044
Q3            2.952890
Mean          2.743961
Max           6.564293
Which_Max     4.000000
Mad           1.456849
Var           4.027872
Std           2.006956
Skew          1.045776
Kurt          0.393228
dtype: float64

当实际工作中我们需要处理的是一系列的数值型数据框，可以使用apply函数将这个stats函数应用到数据框中的每一列。

将之前创建的d1,d2,d3数据构建数据框：

df=pd.DataFrame(np.array([d1,d2,d3]).T,columns=['x1','x2','x3'])
print(df.head())
df.apply(stats)

         x1        x2    x3
0 -0.116379  0.494500  71.0
1  4.377442  2.154780  75.0
2  0.126531  1.198355  98.0
3  3.231236  0.667395  88.0
4  0.901137  0.711861  21.0

	x1	x2	x3
Count	10.000000	10.000000	10.000000
Min	-0.116379	0.024806	21.000000
Which_Min	0.000000	5.000000	4.000000
Q1	0.915427	0.300088	39.500000
Median	2.435627	0.689628	73.000000
Q3	4.034649	1.029190	91.750000
Mean	2.430114	0.756673	65.800000
Max	5.649165	2.154780	98.000000
Which_Max	9.000000	1.000000	2.000000
Mad	1.669003	0.442881	24.840000
Var	3.899593	0.384392	923.733333
Std	1.974739	0.619993	30.392982
Skew	0.222341	1.264177	-0.634668
Kurt	-1.254241	2.047424	-1.351546

以上很简单的创建了数值型数据的统计性描述，但对于离散型数据就不能使用该方法了。我们在统计离散变量的观测数、唯一值个数、众数水平及个数，只需要使用describe方法就可以实现这样的统计了：

student['Sex'].describe()

除了以上简单的描述性统计之外，还提供了连续变量的相关系数（corr）和协方差（cov）的求解：

df

	x1	x2	x3
0	5.811077	0.181474	33.0
1	2.963418	0.482190	17.0
2	2.295078	0.425659	71.0
3	0.279647	0.102589	45.0
4	6.564293	0.552998	33.0
5	1.146455	0.108593	83.0
6	1.903623	0.669232	68.0
7	1.157710	1.185420	41.0
8	2.921304	0.120531	69.0
9	2.397009	4.641729	23.0

df.corr()

	x1	x2	x3
x1	1.000000	-0.075466	-0.393609
x2	-0.075466	1.000000	-0.437821
x3	-0.393609	-0.437821	1.000000

相关系数的计算方法可以调用pearson方法、kendall方法、或者spearman方法，默认使用的是pearson方法：

df.corr('spearman')

	x1	x2	x3
x1	1.000000	0.260606	-0.559273
x2	0.260606	1.000000	-0.510641
x3	-0.559273	-0.510641	1.000000

如果只关注某一个变量与其余变量的相关系数的话，可以使用corrwith，如下方只关注x1与其余变量的相关系数：

df.corrwith(df['x1'])

x1    1.000000
x2   -0.075466
x3   -0.393609
dtype: float64

数值型变量间的协方差矩阵：

df.cov()

	x1	x2	x3
x1	4.027872	-0.208238	-18.029331
x2	-0.208238	1.890358	-13.738701
x3	-18.029331	-13.738701	520.900000

pandas实现SQL操作

pandas实现对数据的增删改查

1.增：添加新行或增加新列

# 增：添加新行或增加新列
dict={'Name':['LiuShunxiang','Zhangshan'],
    'Sex':['M','F'],
    'Age':[27,23],
    'Height':[165.7,167.2],
    'weight':[61,63]}
print(dict)
student1=pd.DataFrame(dict)
print(student1)

{'Name': ['LiuShunxiang', 'Zhangshan'], 'Sex': ['M', 'F'], 'Age': [27, 23], 'Height': [165.7, 167.2], 'weight': [61, 63]}
           Name Sex  Age  Height  weight
0  LiuShunxiang   M   27   165.7      61
1     Zhangshan   F   23   167.2      63

现在将student2中的数据新增到student中，可以通过concat函数实现：

在数据库中union必须要求两张表的列顺序一致，而这里concat函数可以自动对齐两个数据框的变量。

添加新列：

对于新增的列没有赋值，就会出现空NaN的形式。

2.删：删除表、观测行或变量列

删除数据框student2,通过del命令实现，该命令可以删除Python的所有对象。

删除指定的行：

根据布尔索引删除行数据，其实这个删除就是保留删除条件的反面数据，例如删除所有14岁以下的学生：

删除指定的列：

不论是删除行还是删除列，都可以通过drop方法实现，只需要设定好删除的轴即可，即调整drop方法中的axis参数。默认该参数为0，表示删除行观测，如果需要删除列变量，则需设置为1。

3.改：修改原始记录的值

如果发现表中的某些数据错误了，如何更改原来的值呢？我们试试结合布尔索引和赋值的方法：
例如发现student3中姓名为Liushunxiang的学生身高错了，应该是170，如何改呢？

4.查：类似上边的数据查询部分

5.聚合：通过groupby()函数实现数据的聚合操作

根据性别分组，计算各组别中学生身高和体重的平均值：

如果不对原始数据作限制的话，聚合函数会自动选择数值型数据进行聚合计算。如果不想对年龄计算平均值的话，就需要剔除改变量：

groupby还可以使用多个分组变量，例如根据年龄和性别分组，计算身高与体重的平均值：

还可以对每个分组计算多个统计量：

6.排序

可以使用order、sort_index和sort_values实现序列和数据框的排序工作：

再试试降序排序的设置：

上面两个结果其实都是按值排序，并且结果中都给出了警告信息，即建议使用sort_values()函数进行按值排序。

在数据框中一般都是按值排序，例如：

7.多表连接

连接分内连接和外连接，在数据库语言中通过join关键字实现，pandas建议使用merger函数实现数据的各种连接操作。

如下是构造一张学生的成绩表：

现在想把学生表student与学生成绩表score做一个关联，该如何操作呢？

注意，默认情况下，merge函数实现的是两个表之间的内连接，即返回两张表中共同部分的数据。可以通过how参数设置连接的方式，left为左连接；right为右连接；outer为外连接。

左连接实现的是保留student表中的所有信息，同时将score表的信息与之配对，能配多少配多少，对于没有配对上的Name，将会显示成绩为NaN。

缺失值处理

现实中的数据存在很多噪音的同时，缺失值也非常的常见。缺失值的存在会影响后期的数据分析或挖掘工作，那么缺失值的处理有哪些方法呢？

1.删除法

当数据中某个变量大部分值都会缺失值时，可以考虑删除该变量；
当缺失值时随机分布的，且缺失的数量并不是很多时，可以删除这些缺失的观测；

这是一组含有缺失值的序列，我们可以结合sum函数和isnull函数来检测数据中含有多少缺失值：

sum(pd.isnull(s))

直接删除缺失值：

默认情况下，dropna会删除任何含有缺失值的行，我们再构造一个数据框试试：

返回结果表明，数据中只要含有缺失值NaN,该数据行就会被删除，如果使用参数how=’all’，则表明只删除所有行为缺失值的观测。

2.替补法

对于连续变量，如果变量的分布近似或就是正态分布的话，可以用均值替代那些缺失值；
如果变量是有偏的，可以使用中位数来代替那些缺失值；
对于离散型变量，一般使用众数去替换那些存在缺失的预测；

fillna函数的参数：

value:用于填充缺失值的标量值或者字典对象
method:插值方式，如果函数调用时，未指定其他参数的话默认值fill
axis:待填充的轴默认值axis=0
inplace:修改调用这对象而不产生副本
limit:（对于前向和后项填充）可以连续填充的最大数量

1）用0填补所有缺失值

2)采用前项填充或后向填充

3)使用常量填充不同的列

4)用均值或中位数填充各自的列

3.插补法

插补法是基于蒙特卡洛模拟法，结合线性模型、广义线性模型、决策树等方法计算出来的预测值替换缺失值。

实现excel的数据透视表功能

在Excel中有一个非常强大的功能就是数据透视表，通过托拉拽的方式可以迅速的查看数据的聚合情况，这里的聚合可以是计数、求和、均值、标准差等。
pandas为我们提供了非常强大的函数pivot_table()，该函数就是实现数据透视表功能的。对于上面所说的一些聚合函数，可以通过参数aggfunc设定。先看看这个函数的语法和参数：

pivot_table(data,values=None,index=None,columns=None,aggfunc='mean', fill_value=None,margins=False,dropna=True,margins_name='All')

data:需要进行数据透视表操作的数据框
values:指定需要聚合的字段
index:指定某些原始变量作为行索引
columns:指定哪些离散的分组变量
aggfunc:指定相应的聚合函数
fill_values:使用一个常数替代缺失值，默认不替换
margins:是否进行行或列的汇总，默认不汇总
dropna:默认所有观测为缺失的列
margins_name:默认行汇总或列汇总的名称为‘ALL’

仍然以student表为例，来认识一下数据透视表pivot_table函数的用法：

对一个分组变量（Sex），一个数值变量（Height）作统计汇总：

对一个分组变量（Sex），两个数值变量（Height,Weight）作统计汇总：

对两个分组变量（Sex，Age)，两个数值变量（Height,Weight）作统计汇总：

很显然这样的结果并不像Excel中预期的那样，该如何变成列联表的形式的？很简单，只需将结果进行非堆叠操作（unstack）即可：

使用多个聚合函数：

多层索引的使用

接下再讲一个Pandas中的重要功能，那就是多层索引。
序列的多层索引类似于Excel中如下形式。

对于这样的数据格式有什么好处呢？pandas可以帮我们实现用低维度形式处理高维数数据，这里举个例子：

对于这种多层次索引的序列，取数据就显得非常简单了：

对于这种多层次索引的序列，我们还可以非常方便的将其转换为数据框的形式：

以上针对的是序列的多层次索引，数据框也同样有多层次的索引，而且每条轴上都可以有这样的索引，就类似于Excel中常见的这种形式：

构造一个类似的高维数据框：

同样，数据框中的多层索引也可以非常便捷的取出大块数据：

在数据框中使用多层索引，可以将整个数据集控制在二维表结构中，这对于数据重塑和基于分组的操作（如数据透视表的生成）比较有帮助。

就拿student二维数据框为例，我们构造一个多层索引数据集：

韩明宇

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析处理库——Pandas

原文：https://www.cnblogs.com/nxld/p/6058591.html目录数据结构简介：DataFrame 和 Series1.Series的创建2.DataFrame的创建数据索引index1.通过索引值或索引标签获取数据2.自动化对齐利用pandas查询数据统计分析pandas实现SQL操作1.增：添加新行或增加新列2.删：...
复制链接

扫一扫