索引
一、单级索引
loc方法、iloc方法、[]操作符
1.loc
本质上说,loc中能传入的只有布尔列表和索引子集构成的列表
用法:
(1)单行、多行索引
(2)单列、多列索引
(3)联合索引
(4)函数索引
(5)布尔索引
2.iloc(与loc不同,切片右端点不包含)
iloc中接收的参数只能为整数或整数列表,不能使用布尔索引
用法:
(1)单行、多行索引
(2)单列、多列索引
(3)混合索引
(4)函数索引
3.[]操作符
用法:
(1)单元素索引
(2)多行索引
(3)函数索引
(4)布尔索引
对于DataFrame
(5)单列、多列索引
布尔索引
1.布尔符号:’&’,’|’,’~’:分别代表和and,或or,取反not
2. isin方法
快速标量索引
只需要取一个元素,at和iat方法
区间索引
1.interval_range方法
2.利用cut将数值列转为区间为元素的分类变量
二、多级索引
创建多级索引
1.通过from_tuple或from_arrays
2.通过Array创建
3.指定df中的列创建(set_index方法
索引层的交换
1.swaplevel方法(两层交换)
2.reorder_levels方法(多层交换)
三、索引设定
index_col参数
index_col是read_csv中的一个参数
reindex和reindex_like
reindex是指重新索引,它的重要特性在于索引对齐,很多时候用于重新排序
reindex_like的作用为生成一个横纵索引完全与参数列表一致的DataFrame,数据使用被调用的表
set_index和reset_index¶
set_index将某些列作为索引
reset_index主要功能是将索引重置
rename_axis和rename
rename_axis是针对多级索引的方法,作用是修改某一层的索引名,而不是索引标签
rename方法用于修改列或者行索引标签,而不是索引名
四、常用索引型函数
where函数
mask函数
query函数
五、重复元素处理
duplicated方法
该方法返回了是否重复的布尔列表
drop_duplicates方法
剔除重复项
六、抽样函数:sample函数
参数:
(1):n为样本量
(2):frac为抽样比
(3):replace为是否放回
(4):axis为抽样维度,默认为0,即抽行
(5):weights为样本权重,自动归一化