Pandas数据处理总结 (手册3.1-3.2)

最新推荐文章于 2023-04-10 20:47:50 发布

图灵的狗

最新推荐文章于 2023-04-10 20:47:50 发布

阅读量227

点赞数 1

分类专栏：数据处理 NumPy 文章标签： numpy python 机器学习数据分析大数据

原文链接：https://blog.csdn.net/muyashui/article/details/82908050

版权

数据处理同时被 2 个专栏收录

5 篇文章 1 订阅

订阅专栏

NumPy

4 篇文章 0 订阅

订阅专栏

Pandas数据处理总结 (手册3.1-3.2)

在NumPy和它的ndarray对象中，为多维数组提供了高效的存储和处理方法.。
Pandas是在NumPy基础上建立的新程序库，提供了高效的DataFrame数据结构。
DataFrame本质上是一种带行标签和列标签、支持相同类型数据和缺失值的多维数组。此外，还有Series和index。

注：转载请注明出处

Pandas安装（3.1）

Pandas的导入形式与NumPy相同。
检测Pandas版本号

import pandas as pd
import numpy as np
print(pd.__version__,np.__version__)    # 注：是version不是vision

1.1.0 1.19.1

Pandas对象介绍（3.2）

Pandas三个基础数据结构 : Series, DataFrame, Index (注意字母大小写)。

Pandas的 Series对象（3.2.1）

· 基本操作

Series是一个带索引数据的一维数组。可以用一个数组创建。

# 可以用一个数组创建Series对象
data1 = pd.Series([0.25,0.5,0.75,1])
data2 = np.array([0.25,0.5,0.75,1])
data3 = [0.25,0.5,0.75,1]
print("data1的数据类型是:\n",type(data1),'---\n',data1)
print("data2的数据类型是:\n",type(data2),'---\n',data2)
print("data3的数据类型是:\n",type(data3),'---\n',data3)

data1的数据类型是:
 <class 'pandas.core.series.Series'> ---
 0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64
data2的数据类型是:
 <class 'numpy.ndarray'> ---
 [0.25 0.5  0.75 1.  ]
data3的数据类型是:
 <class 'list'> ---
 [0.25, 0.5, 0.75, 1]

Series对象将一组数据和一组索引绑定在一起，可以通过values属性和index属性来获取数据。

values属性返回的结果与NumPy数组类似（注意字母大小写和是否为复数格式）：

data1.values

array([0.25, 0.5 , 0.75, 1.  ])

index属性返回的结果是类型为pd.Index的类数组对象：

data1.index

RangeIndex(start=0, stop=4, step=1)

· 索引取值

可以通过中括号索引标签获取值：

data1[2]  # 第3个数值

0.75

data1[1:3]  # 第2-3个  ,左闭右开

1    0.50
2    0.75
dtype: float64

data[:3]   # 前3个

a    0.25
a     0.5
c    0.75
dtype: object

（1） Series vs NumPy数组

Series和NumPy的一维数组基本相同, 本质差别在索引上。
NumPy数组是隐式定义的整数索引获取数值，而Pandas的Series对象用一种显示定义的索引与数值关联。

显示索引 : 索引不仅仅是整数, 还可以是任何想要的类型。

data = pd.Series([0.25,0.5,0.75,1,'nihao'],index=['a','a','c','d',100])
data

a       0.25
a        0.5
c       0.75
d          1
100    nihao
dtype: object

注意点

Series数组中索引和数值都可以是不同类型的。而NumPy中数组类型必须是同类型的。
Series数组中索引值可以相同。

（2） Series vs 字典

可以把Pandas的Series对象看成是一种特殊的Python字典。
类比NumPy的数组比Python列表高效。
Pandas Series对象在某些操作上比Python的字典高效。

用Python的字典创建一个Series对象。用字典创建Series对象时，其索引默认按照顺序排列。

rk_dict = {'湖北':23213,
             '湖南':213323,     # 用冒号 而不是逗号
             '广东':233232,
             '江西':8238238,
             '山东':992329}
rk = pd.Series(rk_dict)
rk

湖北      23213
湖南     213323
广东     233232
江西    8238238
山东     992329
dtype: int64

rk['湖北']

和字典不同, Series对象还支持数组形式的操作，如切片。也就是说：
（1）Series不是字典
（2）字典不能执行数组形式的操作,会报错

rk['湖北':'广东']

湖北     23213
湖南    213323
广东    233232
dtype: int64

（3）创建Series对象

创建Series对象的方法大都为如下形式：

pd.Series(data, index=index)
index是一个可选参数, data参数支持多种数据类型

1）data 可以是列表或NumPy数组, 这时 index 默认值为整数序列：

pd.Series([2,4,6,8])

0    2
1    4
2    6
3    8
dtype: int64

2）data 也可以是标量：

pd.Series(5,index=[100,200,300])

100    5
200    5
300    5
dtype: int64

3）data 还可以是字典，index默认是排序的字典键：

pd.Series({2:'a',3:'b',4:'d'})

2    a
3    b
4    d
dtype: object

4）上述的形式都可以通过显式指定索引筛选出需要的结果：

pd.Series({2:'a',3:'b',4:'d'},index=[4,2])

4    d
2    a
dtype: object

Pandas的DataFrame对象（3.2.2）

可以将Series类比为灵活的索引的一维数组，那么DataFrame就可以看作一个既有灵活行索引，又有灵活列名的二维数组。

（1）DataFrame是通用型数组

rk_dict = {'湖北':23213,
           '湖南':213323,     # 用冒号 而不是逗号
           '广东':233232,
           '江西':8238238,
           '山东':992329}
rk = pd.Series(rk_dict)

sh_dict = {'湖北':'武汉',
           '湖南':'长沙',     
           '广东':'广州',
           '江西':'南昌',
           '山东':'济南'}
sh = pd.Series(sh_dict)
print(rk)
print(sh)

湖北      23213
湖南     213323
广东     233232
江西    8238238
山东     992329
dtype: int64
湖北    武汉
湖南    长沙
广东    广州
江西    南昌
山东    济南
dtype: object

用上面的两个Series对象定义一个DataFrame：

states = pd.DataFrame({'省会':sh,
                       '人口':rk})
states

	省会	人口
湖北	武汉	23213
湖南	长沙	213323
广东	广州	233232
江西	南昌	8238238
山东	济南	992329

和Series一样，DataFrame也有index属性可以获取获取索引标签：

states.index

Index(['湖北', '湖南', '广东', '江西', '山东'], dtype='object')

DataFrame有columns属性，存放列标签的Index对象。注意复数和字母大小写：

states.columns

Index(['省会', '人口'], dtype='object')

DataFrame的特点是列也有索引，所以数据可以通过行/列索引获得。

（2）DataFrame是特殊的字典

字典是一个键映射一个值, DataFrame是一列映射一个Series的数据. 也就是索引列标签的话, 返回一列数据，而行索引会报错。

print(states['省会'])  # 为什么结果把行索引也都带出了呢 ?
# print(states['湖北'])  报错

湖北    武汉
湖南    长沙
广东    广州
江西    南昌
山东    济南
Name: 省会, dtype: object

（3）创建DataFrame对象

方式1 : 通过单个Series对象创建

pd.DataFrame(rk,columns=['人口'])
# rk是个Series对象,没有列标签. DataFrame是有列标签的, 所以需要指定.
# 人口需要用中括号[],不能用小括号

	人口
湖北	23213
湖南	213323
广东	233232
江西	8238238
山东	992329

方式2 : 通过字典创建（应该是用字典,列表创建）

data = [{'a': i, 'b': 2*i} for i in range(3)] 
print(data)
print(type(data))
# 这是创建了一个list, list里面有三个字典类型的元素
data1 = pd.DataFrame(data)
print(data1)

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]
<class 'list'>
   a  b
0  0  0
1  1  2
2  2  4

从上代码可以看出, 当用字典创建DataFrame的时候, 原字典的关键字变成了DataFrame中的列(columns)

pd.DataFrame([{'a':1,'b':100},{'b':1000,'a':12},{'b':123,'c':"湖北"},{'a':1000}])

	a	b	c
0	1.0	100.0	NaN
1	12.0	1000.0	NaN
2	NaN	123.0	湖北
3	1000.0	NaN	NaN

x1 = {'a':1,'b':100,'a':100}      # 两个a, 居然不报错,但是输出的结果中a只有一个
x1

{'a': 100, 'b': 100}

方式3 : 通过Series创建

rk_dict = {'湖北':23213,
             '湖南':213323,     # 用冒号 而不是逗号
             '广东':233232,
             '江西':8238238,
             '山东':992329}     #注意 山东在 sh中没有
rk = pd.Series(rk_dict)

sh_dict = {'湖北':'武汉',
           '湖南':'长沙',     
             '广东':'广州',
             '江西':'南昌',
             '广西':'南宁'}      #注意广西在rk中没有
sh = pd.Series(sh_dict)
pd.DataFrame({'人口':rk,'省会':sh})

	人口	省会
山东	992329.0	NaN
广东	233232.0	广州
广西	NaN	南宁
江西	8238238.0	南昌
湖北	23213.0	武汉
湖南	213323.0	长沙

方式4 : 通过NumPy二维数组创建

pd.DataFrame(np.random.rand(3,2),columns=['x1','x2'],index = ['a','b','c'])

	x1	x2
a	0.647256	0.841571
b	0.687523	0.205214
c	0.707821	0.498514

方式5 : 通过NumPy结构化数组创建。在2.9节中介绍

A = np.zeros(3,dtype=[('a','i8'),('b','f8')])
print(A)
print(type(A))
A

[(0, 0.) (0, 0.) (0, 0.)]
<class 'numpy.ndarray'>





array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('a', '<i8'), ('b', '<f8')])

pd.DataFrame(A)     #  无缝连接?

	a	b
0	0	0.0
1	0	0.0
2	0	0.0

Pandas的Index对象（3.2.3）

（1）看作是不可变数组

Index对象可像数组一样通过Python的取值方式获取数值，也可通过切片取值。

ind[3]

ind[:3]

Int64Index([2, 3, 4], dtype='int64')

Index对象还有与NumPy数组相似的属性值。如.size, .shape, .ndim, .dtype等。

print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64

Index对象与NumPy数组的不同之处在于：Index对象的索引是不可变的，如利用索引修改值时会报错。Index对象的不可变特征便使得多个DataFrame和数组之间进行索引共享时更加安全。

ind[1] = 0

---------------------------------------------------------------------------

TypeError                                 Traceback (most recent call last)

<ipython-input-133-906a9fa1424c> in <module>
----> 1 ind[1] = 0


d:\python\lib\site-packages\pandas\core\indexes\base.py in __setitem__(self, key, value)
   4073 
   4074     def __setitem__(self, key, value):
-> 4075         raise TypeError("Index does not support mutable operations")
   4076 
   4077     def __getitem__(self, key):


TypeError: Index does not support mutable operations

（2）看作是有序集合

Index对象遵循Python标准库的集合（set）数据结构的许多用法，包括并集&、交集|和差集^等。

inda = pd.Index([1,3,5,7,9])
indb = pd.Index([2,4,5,9,10])
print(inda & indb)   # 交集
print(inda | indb)  #并集
print(inda ^ indb)   # 异或、

图灵的狗

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pandas数据处理总结 (手册3.1-3.2)

Pandas数据处理总结 (手册3.1-3.2)在NumPy和它的ndarray对象中，为多维数组提供了高效的存储和处理方法.。Pandas是在NumPy基础上建立的新程序库，提供了高效的DataFrame数据结构。DataFrame本质上是一种带行标签和列标签、支持相同类型数据和缺失值的多维数组。此外，还有Series和index。注：转载请注明出处文章目录Pandas数据处理总结 (手册3.1-3.2)Pandas安装（3.1）Pandas对象介绍（3.2）Pandas的 Series对
复制链接

扫一扫