数据分析首要面临的问题就是数据的清洗和切割。
初学者在学习pandas的时候,经常会被pandas五花八门的数据切片和数据索引方式绕晕,造成混乱,从而影响代码编写的效率。
综合来讲,在数据的切片上,pandas为我们提供了三种不同的处理范式:df[]; df.loc[:]以及df.iloc[:]
1. df[]
df[]的表达方式也许是我们在pandas中最常用的切片方式,因为它最常用,最直接。
要想理解df[]的表达方式,首先我们得了解一下pandas DataFrame的构成。简单来说,DataFrame可以看成由Pandas Series 和列索引组成的字典型结构。而Pandas Series 可以看成是由 Ndarray 和行索引组成的字典型结构。
由此,df[]很好的继承了Ndarray的下标切片索引(行索引)和字典格式的标签索引(列索引)。
- df[]行索引
df[]默认执行行的切片索引,同时支持下标和标签切片。
下标切片是左闭右开,但是标签的切片是全闭的,体现在对全部标签的选择