python数据分析包pandas_Python之路-pandas包的详解与使用

最新推荐文章于 2024-07-25 22:34:08 发布

weixin_39911916

最新推荐文章于 2024-07-25 22:34:08 发布

阅读量242

点赞数

文章标签： python数据分析包pandas

什么是pandas

pandas是一种Python数据分析的利器，是一个开源的数据分析包，最初是应用于金融数据分析工具而开发出来的，因此pandas为时间序列分析提供了很好的支持。pandas是PyData项目的一部分。

安装pandas

Python版本要求：2.7、3.4、3.5、3.6

依赖Python库：setuptools、NumPy、python-dateutil、pytz

安装方式：

Python的Anaconda发行版，已经安装好pandas库，不需要另外安装

使用Anaconda界面安装，选择对应的pandas进行勾选安装即可

使用Anaconda命令安装：conda install pandas

使用PyPi安装命令安装：pip install pandas

使用Anaconda界面安装pandas

pandas操作

pandas引入约定

from pandas import Series,

DataFrame import pandas as pd

pandas基本数据结构

pandas中主要有两种数据结构，分别是：Series和DataFrame。

Series：一种类似于一维数组的对象，是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。仅由一组数据也可产生简单的Series对象。注意：Series中的索引值是可以重复的。

DataFrame：一个表格型的数据结构，包含有一组有序的列，每列可以是不同的值类型(数值、字符串、布尔型等)，DataFrame即有行索引也有列索引，可以被看做是由Series组成的字典。

Series：通过一维数组创建

练习

In [2]:

import pandas as pd

import numpy as np

series创建

In [8]:

# ser01 = pd.Series([1,2,3,4])

# ser01

ser01 = pd.Series(np.array([1,2,3,4]))

ser01

print(ser01.dtype)

print(ser01.values)

print(ser01.index)

print(ser01)

int32

[1 2 3 4]

RangeIndex(start=0, stop=4, step=1)

0 1

1 2

2 3

3 4

dtype: int32

In [9]:

#设置索引(创建好后改)

ser01.index = ['a','b','c','d']

ser01

Out[9]:

a 1

b 2

c 3

d 4

dtype: int32

In [10]:

ser01 = pd.Series(np.array([1,2,3,4]),index = ['a','b','c','d'])

ser01

Out[10]:

a 1

b 2

c 3

d 4

dtype: int32

Series：通过字典的方式创建

练习

通过字典的方式创建

In [11]:

ser02 = pd.Series({

'a':10, #key变为索引

'b':20,

'c':30

})

ser02

Out[11]:

a 10

b 20

c 30

dtype: int64

Series值的获取

Series值的获取主要有两种方式：

通过方括号+索引的方式读取对应索引的数据，有可能返回多条数据

通过方括号+下标值的方式读取对应下标值的数据，下标值的取值范围为：[0，len(Series.values))；另外下标值也可以是负数，表示从右往左获取数据

Series获取多个值的方式类似NumPy中的ndarray的切片操作，通过方括号+下标值/索引值+冒号(:)的形式来截取series对象中的一部分数据。

Series的运算

NumPy中的数组运算，在Series中都保留了，均可以使用，并且Series进行数组运算的时候，索引与值之间的映射关系不会发生改变。

注意：其实在操作Series的时候，基本上可以把Series看成NumPy中的ndarray数组来进行操作。ndarray数组的绝大多数操作都可以应用到Series上。

练习

Series值得获取

In [15]:

print(ser02['a'])

print(ser02[0])

print(ser02[0:2])

print(ser02['a':'c'])

a 10

b 20

dtype: int64

a 10

b 20

c 30

dtype: int64

Series的运算

In [16]:

ser02 = pd.Series({

'a':10, #key变为索引

'b':20,

'c':30

})

ser02

Out[16]:

a 10

b 20

c 30

dtype: int64

In [20]:

ser02[ser02 > 10]

ser02/10

ser02+10

ser02*10

Out[20]:

a 100

b 200

c 300

dtype: int64

In [22]:

np.exp(ser02)

np.fabs(ser02)

Out[22]:

a 10.0

b 20.0

c 30.0

dtype: float64

Series缺失值检测

pandas中的isnull和notnull两个函数可以用于在Series中检测缺失值，这两个函数的返回时一个布尔类型的Series

Series自动对齐

当多个series对象之间进行运算的时候，如果不同series之间具有不同的索引值，那么运算会自动对齐不同索引值的数据，如果某个series没有某个索引值，那么最终结果会赋值为NaN。

Series及其索引的name属性

Series对象本身以及索引都具有一个name属性，默认为空，根据需要可以进行赋值操作

Series缺失值检测与处理

In [26]:

ser01 = pd.Series({

'a':10,

'b':20,

'c':30

})

ser01

ser02 = pd.Series(ser01,index = ['a','b','c','d'])

ser02

Out[26]:

a 10.0

b 20.0

c 30.0

d NaN

dtype: float64

In [28]:

ser02[pd.isnull(ser02)]

ser02[pd.notnull(ser02)]

Out[28]:

a 10.0

b 20.0

c 30.0

dtype: float64

In [29]:

ser01 = pd.Series([1,2,3,4],index = ['a','b','c','d'])

ser02 = pd.Series([10,20,30,40],index = ['e','a','f','b'])

ser01+ser02

Out[29]:

a 21.0

b 42.0

c NaN

d NaN

e NaN

f NaN

dtype: float64

In [32]:

#series的name属性

ser01 = pd.Series([1,2,3,4],index = ['a','b','c','d'])

ser01.name = 'aaa'

ser01.index.name = 'names'

ser01

Out[32]:

names

a 1

b 2

c 3

d 4

Name: aaa, dtype: int64

DataFrame: 通过二维数组创建

In [1]:

import pandas as pd

In [3]:

df01 = pd.DataFrame([['joe','susan','anne'],[79,45,67]])

df01

Out[3]:

012

0joesusananne

1794567

In [10]:

df01 = pd.DataFrame([['joe','susan','anne'],[79,45,67]],index = ['one','teo'],columns = ['a','b','c'])

print(df01)

print(df01.index)

print(df01.columns)

print(df01.values)

a b c

one joe susan anne

teo 79 45 67

Index(['one', 'teo'], dtype='object')

Index(['a', 'b', 'c'], dtype='object')

[['joe' 'susan' 'anne']

[79 45 67]]

DataFrame: 通过字典的方式创建

索引对象

不管是Series还是DataFrame对象，都有索引对象。

索引对象负责管理轴标签和其它元数据(eg：轴名称等等)

通过索引可以从Series、DataFrame中获取值或者对某个索引值进行重新赋值

Series或者DataFrame的自动对齐功能是通过索引实现的

DataFrame数据获取

可以直接通过列索引获取指定列的数据， eg: df[column_name]

如果需要获取指定行的数据的话，需要通过ix方法来获取对应行索引的行数据，eg: df.ix[index_name]

通过字典的方法创建

In [42]:

df01 = pd.DataFrame({

'name':['joe','susan','anne'],

'sex':['men','women','women'],

'age':[18,19,20],

'classid':3

},index = ['one','two','three'])

print(df01)

age classid name sex

one 18 3 joe men

two 19 3 susan women

three 20 3 anne women

DataFrame获取数据

In [43]:

#列索引获取数据

df01['name']

df01.name

Out[43]:

one joe

two susan

three anne

Name: name, dtype: object

In [44]:

#列添加

df01['address'] = ['北京','上海','广州']

df01

Out[44]:

ageclassidnamesexaddress

one183joemen北京

two193susanwomen上海

three203annewomen广州

In [45]:

#列删除

df01.pop('address')

df01

Out[45]:

ageclassidnamesex

one183joemen

two193susanwomen

three203annewomen

In [46]:

#列修改

df01['classid'] = 4

df01

Out[46]:

ageclassidnamesex

one184joemen

two194susanwomen

three204annewomen

In [47]:

#行获取

df01.ix['one']

df01.loc['two']#两种方式

df01.loc['two','name']

df01.loc['two']['name']#两种方式

Out[47]:

'susan'

In [33]:

#行增加

df01.ix['four'] = [21,3,'black','men']

df01

Out[33]:

ageclassidnamesex

one184joemen

two194susanwomen

three204annewpmen

four213blackmen

In [48]:

#行修改

df01.ix['four'] = [23,4,'ronaldo','men']

df01

Out[48]:

ageclassidnamesex

one184joemen

two194susanwomen

three204annewomen

four234ronaldomen

In [35]:

#行删除

df01.drop('four')

Out[35]:

ageclassidnamesex

one184joemen

two194susanwomen

three204annewpmen

pandas基本功能

数据文件读取/文本数据读取

索引、选取和数据过滤

算法运算和数据对齐

函数的应用和映射

重置索引

pandas：数据文件读取

通过pandas提供的read_xxx相关的函数可以读取文件中的数据，并形成DataFrame,常用的数据读取方法为：read_csv，主要可以读取文本类型的数据

In [13]:

import pandas as pd

import numpy as np

读取文件

In [4]:

df01 = pd.read_csv('data.csv')

df01

Out[4]:

nameagesex

0joe18men

1susan19women

2anne20women

In [5]:

df02 = pd.read_excel('data.xlsx')

df02

Out[5]:

nameagesex

0joe18men

1susan19women

2anne20women

In [9]:

df03 = pd.read_csv('data.txt',sep = ';',header = None)

df03

Out[9]:

012

0joe18men

1susan19women

2anne20women

pandas：数据过滤获取

通过DataFrame的相关方式可以获取对应的列或者数据形成一个新的DataFrame, 方便后续进行统计计算。

数据过滤

In [11]:

df01 = pd.DataFrame({

'name':['joe','susan','anne'],

'sex':['men','women','women'],

'age':[18,19,20],

'classid':3

},index = ['one','two','three'])

print(df01)

print(df01.columns)

age classid name sex

one 18 3 joe men

two 19 3 susan women

three 20 3 anne women

Index(['age', 'classid', 'name', 'sex'], dtype='object')

In [12]:

df01[df01.columns[2:]]

Out[12]:

namesex

onejoemen

twosusanwomen

threeannewomen

pandas：缺省值NaN处理方法

对于DataFrame/Series中的NaN一般采取的方式为删除对应的列/行或者填充一个默认值

缺失值NaN

In [32]:

df01 = pd.DataFrame(np.random.randint(1,9,size = (4,4)))

df01

Out[32]:

0123

07716

13857

27432

38266

In [33]:

df01.ix[1:2,1] = np.NaN

df01.ix[1:2,2] = np.NaN

df01.ix[1:2,3] = np.NaN

df01

Out[33]:

0123

077.01.06.0

13NaNNaNNaN

27NaNNaNNaN

382.06.06.0

In [34]:

df01.dropna()#默认只要包含NaN就会删除

Out[34]:

0123

077.01.06.0

382.06.06.0

In [35]:

df01.ix[1,0] = np.NaN

df01.dropna(how = 'all')#指定阈值删除行

Out[35]:

0123

07.07.01.06.0

27.0NaNNaNNaN

38.02.06.06.0

In [36]:

df01.dropna(axis = 1)#删除列（包含就删除）

Out[36]:

In [37]:

df01 = pd.DataFrame(np.random.randint(1,9,size = (4,4)))

df01

Out[37]:

0123

01772

12778

27821

38544

In [40]:

df01.ix[1,0] = np.NaN

df01.ix[1:2,1] = np.NaN

df01.ix[1:2,2] = np.NaN

df01.ix[1:2,3] = np.NaN

df01

Out[40]:

0123

01.0NaN7.02.0

1NaNNaNNaNNaN

27.0NaNNaNNaN

38.05.04.04.0

In [41]:

df01.fillna(0)#将0插入

Out[41]:

0123

01.00.07.02.0

10.00.00.00.0

27.00.00.00.0

38.05.04.04.0

In [42]:

df01.fillna({0:1,1:1,2:2,3:3})#指定列插入值

Out[42]:

0123

01.01.07.02.0

11.01.02.03.0

27.01.02.03.0

38.05.04.04.0

pandas：常用的数学统计方法

数学统计方法

In [56]:

df01 = pd.DataFrame(np.random.randint(1,9,size = (5,4)))

df01

Out[56]:

0123

04236

15318

27117

38825

44467

In [50]:

df01.sum() #列求和

# df01.sum(axis = 1) #0 按照列求和 1 按照行求和

Out[50]:

0 16

1 22

2 17

3 12

dtype: int64

In [53]:

df01.min()

df01.min(axis = 1)

Out[53]:

0 1

1 2

2 2

3 2

dtype: int32

In [60]:

df01.quantile(0.25)#样本位分数位

df01.quantile(0.75)

Out[60]:

0 7.0

1 4.0

2 3.0

3 7.0

dtype: float64

In [57]:

df01.median()#中位数

Out[57]:

0 5.0

1 3.0

2 2.0

3 7.0

dtype: float64

In [61]:

df01.cumsum()#累加

Out[61]:

0123

04236

195414

2166521

32414726

428181333

In [63]:

df01.pct_change()#计算百分数变化

Out[63]:

0123

0NaNNaNNaNNaN

10.2500000.500000-0.6666670.333333

20.400000-0.6666670.000000-0.125000

30.1428577.0000001.000000-0.285714

4-0.500000-0.5000002.0000000.400000

In [64]:

df01.var()

Out[64]:

0 3.3

1 7.3

2 4.3

3 1.3

dtype: float64

In [65]:

df01.std()

Out[65]:

0 1.816590

1 2.701851

2 2.073644

3 1.140175

dtype: float64

In [66]:

df01.describe()

Out[66]:

0123

count5.000005.0000005.0000005.000000

mean5.600003.6000002.6000006.600000

std1.816592.7018512.0736441.140175

min4.000001.0000001.0000005.000000

25%4.000002.0000001.0000006.000000

50%5.000003.0000002.0000007.000000

75%7.000004.0000003.0000007.000000

max8.000008.0000006.0000008.000000

pandas：相关系数与协方差

相关系数（Correlation coefficient）：反映两个样本/样本之间的相互关系以及之间的相关程度。在COV的基础上进行了无量纲化操作，也就是进行了标准化操作。

协方差(Covariance, COV)：反映两个样本/变量之间的相互关系以及之间的相关程度。

通俗理解协方差：如果有X,Y两个变量，每时刻的"X值与均值只差"乘以"Y值与其均值只差"得到一个乘积，再对这每时刻的乘积求和并求出均值。

如果协方差为正，说明X,Y同向变化，协方差越大说明同向程度越高；如果协方差为负，说明X,Y反向运动，协方差越小说明方向程度越高。

pandas：唯一值、值计数以及成员资格

unique方法用于获取Series中的唯一值数组(去重数据后的数组)

value_counts方法用于计算一个Series中各值的出现频率

isin方法用于判断矢量化集合的成员资格，可用于选取Series中或者DataFrame中列中数据的子集