pandas学习基本概念：Series与DataFrame

最新推荐文章于 2024-04-26 16:13:06 发布

行为数据

最新推荐文章于 2024-04-26 16:13:06 发布

阅读量848

点赞数

分类专栏： # Python

本文链接：https://blog.csdn.net/a1183976042/article/details/104989830

版权

Python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Pandas简介

提供高性能易用数据类型和分析工具的第三方库。

引用：import pandas as pd

基于NumPy实现，常与NumPy和Matplotlib一同使用。

Pandas理解

两个数据类型：Series（一维）、DataFrame（二维及以上）

基于上述数据类型的各类操作：基本操作、运算操作、特征类操作、关联类操作

NumPy

Pandas

基础数据类型

扩展数据类型

关注数据的结构表达（数据之间构成的维度，通过什么维度将一组数据存储和表达）

维度：数据间的关系

关注数据的应用表达（在使用数据时，如何更有效地提前并运用数据，过度的维度关系不利于数据的实际运用）

数据与索引之间的关系

（无论是series还是dataframe都支持有效的索引）

Series类型

由一组数据和与之相关的数据索引组成

（一）创建：

Python列表：index与列表元素个数一致。
标量值：index表达Series类型的尺寸。
Python字典：键值对中的键是索引，index从字典中进行选择操作
ndarray：索引和数据都可以通过ndarra类型创建。
其他函数：range()函数等

import pandas as pd
import numpy as np
#从标量创建，必须指定索引
a = pd.Series(25, index = ['a', 'b', 'c'])
print(a)
#从字典创建01
d1 = pd.Series({'a':9, 'b':8, 'c':7})
print(d1)
#从字典创建02：由index指定series结构，并从字典中选取相应值的过程，若无对应值，值NaN
d2 = pd.Series({'a': 9, 'b': 8, 'c': 7}, index=['c', 'a', 'b', 'd'])
print(d2)
#从ndarray创建,若不指定index，默认0始数字
n = pd.Series(np.arange(5), index=np.arange(9, 4, -1))
print(n)

（二）基本操作

Series类型包括index和values两部分

.index()获取所有索引，类型为index
.value()获取所有数据，类型为numpy.array
索引包括自动索引和自定义索引，两套索引并存但不能混用，如一起使用，会被当作自定义索引。

Series类型的操作类型类似ndarray类型

索引方法相同：series[index]（结果是value）、series[:n](切片，结果依然是series)、series[比较关系，结果依然是series]
Numpy中运算和操作可用于Series类型
可以通过自定义索引的列表进行切片
可以通过自动索引进行切片，如果存在自定义索引，则一同被切片

Series类型的操作类型类似python字典类型

通过自定义索引访问
使用保留字in：是否在索引的列表中（不判断自动索引）
使用get方法：b.get('index',200)，从series中提取index对应的值，如不存在，返回第二个参数的值

Series类型对齐操作

Series类型的name属性：series.name、series.index.name

Series类型的修改：Series对象可以随时修改并立刻生效