Python pandas
中的DataFrame
和Series
都可以用loc, iloc
切片来索引数据。
iloc
根据Index
位置索引数据,与常规的python数据切片是前闭后开相同,iloc
也是前闭后开。loc
根据Index
内容索引数据,与常规的python数据切片是前闭后开不同,loc
是前后闭合。
这一点需要注意,尤其是使用0
开始的数字作为Index
的时候,因为Index
的内容和位置相同,所以很容易搞混。
具体可以看一下以下实例的区别:
import numpy as np
import pandas as pd
df = pd.DataFrame(np.arange(12).reshape(6,2))
df
>>> 0 1
0 0 1
1 2 3
2 4 5
3 6 7
4 8 9
5 10 11
df.loc[2:4] # 根据index内容取数,包含index 4
>>> 0 1
2 4 5
3 6 7
4 8 9
df.iloc[2:4] # 根据index位置取数,不包含index 4
>>> 0 1
2 4 5
3 6 7
这一点其实如果在Index
是字符串的时候就很好理解。loc
根据Index
的内容来取数,那提供了什么内容,就希望取到对应的数据。比如给loc
提供一个['a':'f']
,如果取出来的数据不包含f
岂不是很不合理。具体也可以看一下以下实例。
import numpy as np
import pandas as pd
df = pd.DataFrame(np.arange(12).reshape(6,2), index=list('abfghm'))
df
>>> 0 1
a 0 1
b 2 3
f 4 5
g 6 7
h 8 9
m 10 11
df.loc['a':'f']
>>> 0 1
a 0 1
b 2 3
f 4 5