pandas索引

最新推荐文章于 2024-01-22 13:27:47 发布

九久呀

最新推荐文章于 2024-01-22 13:27:47 发布

阅读量469

点赞数

分类专栏： python学习

本文链接：https://blog.csdn.net/qq_38851184/article/details/106244114

版权

python学习专栏收录该内容

35 篇文章 0 订阅

订阅专栏

文章目录

索引对象obj.index

索引对象obj.index

pandas的索引对象用来保存坐标轴标签和其它元数据（如坐标轴名或名称）。构建一个Series或DataFrame时任何数组或其它序列标签在内部转化为索引：

In [68]: obj = Series(range(3), index=['a', 'b', 'c'])
In [69]: index = obj.index
In [70]: index
Out[70]: Index([a, b, c], dtype=object)
In [71]: index[1:]
Out[71]: Index([b, c], dtype=object)

不可变性

索引对象是不可变的，因此不能由用户改变：

In [72]: index[1] = 'd'
Exception Traceback (most recent call last)...
Exception: <class 'pandas.core.index.Index'> object is immutable

索引对象的不可变性非常重要，这样它可以在数据结构中结构中安全的共享：

In [73]: index = pd.Index(np.arange(3))
In [74]: obj2 = Series([1.5, -2.5, 0], index=index)
In [75]: obj2.index is index
Out[75]: True

pandas中的主要索引对象

表格,是库中内建的索引类清单。通过一些开发努力，索引可以被子类化，来实现特定坐标轴索引功能。多数用户不必要知道许多索引对象的知识，但是它们仍然是pandas数据模型的重要部分。

Index,最通用的索引对象，使用Python对象的NumPy数组来表示坐标轴标签。
Int64Index 对整形值的特化索引。
MultiIndex “分层”索引对象，表示单个轴的多层次的索引。可以被认为是类似的元组的数组。
DatetimeIndex 存储纳秒时间戳（使用NumPy的datetime64 dtyppe来表示）。
PeriodIndex 对周期数据（时间间隔的）的特化索引。
固定大小集合功能
除了类似于阵列，索引也有类似固定大小集合一样的功能

In [76]: frame3
state Nevada Ohio
year
2000     NaN  1.5
2001     2.4  1.7
2002     2.9  3.6

In [77]: 'Ohio' in frame3.columns
Out[77]: True
In [78]: 2003 in frame3.index
Out[78]: False

索引方法和属性

每个索引都有许多关于集合逻辑的方法和属性，且能够解决它所包含的数据的常见问题。
索引方法和属性
append 链接额外的索引对象，产生一个新的索引
diff 计算索引的差集
intersection 计算交集
union 计算并集
isin 计算出一个布尔数组表示每一个值是否包含在所传递的集合里
delete 计算删除位置i的元素的索引
drop 计算删除所传递的值后的索引
insert 计算在位置i插入元素后的索引
is_monotonic 返回True，如果每一个元素都比它前面的元素大或相等
is_unique 返回True，如果索引没有重复的值
unique 计算索引的唯一值数组

重建索引reindex

pandas对象的一个关键的方法是 reindex ，意味着使数据符合一个新的索引来构造一个新的对象。

reindex更多的不是修改pandas对象的索引，而只是修改索引的顺序，如果修改的索引不存在就会使用默认的None代替此行。且不会修改原数组，要修改需要使用赋值语句。

reindex 函数的参数
index 作为索引的新序列。可以是索引实例或任何类似序列的Python数据结构。一个索引被完全使用，没有任何拷贝。
method 插值（填充）方法，见表格5-4的选项
fill_value 代替重新索引时引入的缺失数据值
limit 当前向或后向填充时，最大的填充间隙
level 在多层索引上匹配简单索引，否则选择一个子集
copy 如果新索引与就的相等则底层数据不会拷贝。默认为True(即始终拷贝）

In [79]: obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
In [80]: obj
d  4.5
b  7.2
a -5.3
c  3.6

reindex 重排数据（行索引）
在Series上调用 reindex 重排数据，使得它符合新的索引，如果那个索引的值不存在就引入缺失数据值：

In [81]: obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
In [82]: obj2
a -5.3
b 7.2
c 3.6
d 4.5
e NaN
In [83]: obj.reindex(['a', 'b', 'c', 'd', 'e'], fill_value=0)
a -5.3
b 7.2
c 3.6
d 4.5
e 0.0

重建索引的内插或填充method
为了对时间序列这样的数据排序，当重建索引的时候可能想要对值进行内插或填充。 method 选项可以是你做到这一点，使用一个如ffill 的方法来向前填充值：

In [84]: obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
In [85]: obj3.reindex(range(6), method='ffill')
0   blue
1   blue
2 purple
3 purple
4 yellow
5 yellow
method 选项的清单

reindex 的 method（内插）选项
参数描述
ffill或pad 前向（或进位）填充
bfill或backfill 后向（或进位）填充
对于DataFrame， reindex 可以改变（行）索引，列或两者。当只传入一个序列时，结果中的行被重新索引了：

In [86]: frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c', 'd'], columns=['Ohio', 'Texas', 'California'])
In [87]: frame
  Ohio Texas California
a    0     1          2
c    3     4          5
d    6     7          8

列重新索引关键字columns
使用 columns 关键字可以是列重新索引：

In [90]: states = ['Texas', 'Utah', 'California']
In [91]: frame.reindex(columns=states)
   Texas Utah California
a      1  NaN          2
c      4  NaN          5
d      7  NaN          8

DataFrame重命名列columns方法2:
df.rename(columns={'age': 'x', 'fat_percent': 'y'})
行列同时重新索引2种方式
一次可以对两个重新索引，可是插值只在行侧（0坐标轴）进行：

In [92]: frame.reindex(index=['a', 'b', 'c', 'd'], method='ffill', columns=states)
   Texas Utah California
a      1  NaN          2
b      1  NaN          2
c      4  NaN          5
d      7  NaN          8

正如你将看到的，使用带标签索引的 ix 可以把重新索引做的更简单：

In [93]: frame.ix[['a', 'b', 'c', 'd'], states]
  Texas Utah California
a     1  NaN          2
b   NaN  NaN        NaN
c     4  NaN          5
d     7  NaN          8

DataFrame索引和列的互转set_index reset_index
人们经常想要将DataFrame的一个或多个列当做行索引来用，或者可能希望将行索引变成DataFrame的列。以下面这个DataFrame为例：

frame = pd.DataFrame({'a': range(7),'b': range(7, 0, -1),'c': ['one','one','one','two','two','two', 'two'],'d': [0, 1, 2, 0, 1, 2, 3]})
frame
   a  b    c  d
0  0  7  one  0
1  1  6  one  1
2  2  5  one  2
3  3  4  two  0
4  4  3  two  1
5  5  2  two  2
6  6  1  two  3

列转换为行索引set_index
DataFrame的set_index函数会将其一个或多个列转换为行索引，创建一个新的 DataFrame ：

frame2 = frame.set_index(['c', 'd'])
In [6]: frame2
       a  b
c   d      
one 0  0  7
    1  1  6
    2  2  5
two 0  3  4
    1  4  3
    2  5  2
    3  6  1

默认情况下，那些列会从DataFrame中移除，但也可以将其保留下来:

frame.set_index(['c','d'], drop=False)
       a  b    c  d
c   d              
one 0  0  7  one  0
    1  1  6  one  1
    2  2  5  one  2
two 0  3  4  two  0
    1  4  3  two  1
    2  5  2  two  2
    3  6  1  two  3
    ```
索引的级别会被转移到列reset_index
reset_index的功能跟set_index刚好相反，层次化索引的级别会被转移到列里面：
```python
frame2.reset_index()
     c  d  a  b
0  one  0  0  7
1  one  1  1  6
2  one  2  2  5
3  two  0  3  4
4  two  1  4  3
5  two  2  5  2
6  two  3  6  1