昨天事情实在是太多啦,忙完之后都十一点钟了,所以就没有继续更新了,没关系,今天早上只有一节课,抽时间把昨晚的补上哈哈O(∩_∩)O哈哈~
今天呢继续写一下Pandas数据结构里面的Dataframe,上一篇博客介绍了基本概念和创建方法,这篇呢写一下它的索引。Dataframe 是一个二维数组,所以既有行索引也有列索引,我们来看一下怎样选择行与列
df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100,
index = ['one','two','three'],
columns = ['a','b','c','d'])#创建Dataframe
print(df)#输出Dataframe
data1 = df['a']#选择a列
data2 = df[['a','c']]#选择a、c列
print(data1,type(data1))#输出数据
print(data2,type(data2))#输出数据
输出结果:
可以看出选择列是非常简单的,直接选择列名即可,选择行呢也是一样的道理啦
data3 = df.loc['one']
data4 = df.loc[['one','two']]
print(data2,type(data3))
print(data3,type(data4))
输出结果:
下面呢我们再来分别看一下选择行和列的方法
首先来看选择列的方法,我们一般是用‘ df [ ] ’的方法来选择列,当然也可选择行,但是不是很常用
df = pd.DataFrame(np.random.rand(12).reshape(3,4)*100,
index = ['one','two','three'],
columns = ['a','b','c','d'])#创建Dataframe
print(df)#输出Dataframe
选择列
data1 = df['a']
data2 = df[['b','c']] # 尝试输入 data2 = df[['b','c','e']]
print(data1)
print(data2)
输出结果:
选择单列输出结果为Series格式,选择多列,输出结果为Dataframe格式,选择列的时候’ df[ ] ',括号里面默认填写列名
再来看括号里面填写数字的时候会怎样
data3 = df[:1]
data4 = df[:2]
print(data3,type(data3))
print(data4,type(data4))
输出结果:
df [ ] 括号中为数字时,默认选择行,并且只能进行切片选择,不能单独选择(df[0])
再来看选择行的方法—df.loc [ ] ,按index选择行
df1 = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
index = ['one','two','three','four'],
columns = ['a','b','c','d'])#创建Dataframe
df2 = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
columns = ['a','b','c','d'])#创建Dataframe
print(df1)#输出Datafrmae
print(df2)#输出Dataframe
输出结果:
单个标签索引
data1 = df1.loc['one']
data2 = df2.loc[1]
print(data1)
print(data2)
输出结果:
多个标签索引:
data3 = df1.loc[['two','three','five']]
data4 = df2.loc[[3,2,1]]
print(data3)
print(data4)
输出结果:
切片索引:
data5 = df1.loc['one':'three']
data6 = df2.loc[1:3]
print(data5)
print(data6)
输出结果:
要注意做切片索引的时候末端包含
核心内容是 df.loc[label] 主要针对index选择行,同时支持指定index,及默认数字index
再来看一下 df.iloc[ ] 按照整数位置(从轴的0到length-1)选择行的方法,其实它类似list的索引,其顺序就是dataframe的整数位置,从0开始计
df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
index = ['one','two','three','four'],
columns = ['a','b','c','d'])#创建Dataframe
print(df)
单位置索引:
print(df.iloc[0])
print(df.iloc[-1])
输出结果:
多位置索引:
print(df.iloc[[0,2]])
print(df.iloc[[3,2,1]])
输出结果:
切片索引:
print(df.iloc[1:3])
print(df.iloc[::2])
输出结果:
这里要注意 iloc [ ] 做切片索引的时候末端不包含
再来看做数据分析非常重要的布尔型索引
df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
index = ['one','two','three','four'],
columns = ['a','b','c','d'])#创建Dataframe
print(df)#输出Dataframe
输出结果:
判断数据中每个值
b1 = df < 20
print(b1,type(b1))
print(df[b1]) # 也可以书写为 df[df < 20]
当然了也可以对单列数据的值做判断
b2 = df['a'] > 50
print(b2,type(b2))
print(df[b2]) # 也可以书写为 df[df['a'] > 50]
输出结果:
对多列做判断
b3 = df[['a','b']] > 50
print(b3,type(b3))
print(df[b3]) # 也可以书写为 df[df[['a','b']] > 50]
输出结果:
对多行做判断
b4 = df.loc[['one','three']] < 50
print(b4,type(b4))
print(df[b4]) # 也可以书写为 df[df.loc[['one','three']] < 50]
输出结果:
再来看一下多重索引,比如同时索引行和列,可以先选择列再选择行,相当于对一个数据,先筛选字段,再选择数据
df = pd.DataFrame(np.random.rand(16).reshape(4,4)*100,
index = ['one','two','three','four'],
columns = ['a','b','c','d'])#创建Dataframe
print(df)#输出数据
输出结果:
多重索引:
print(df['a'].loc[['one','three']]) # 选择a列的one,three行
print(df[['b','c','d']].iloc[::2]) # 选择b,c,d列的one,three行
print(df[df['a'] < 50].iloc[:2]) # 选择满足判断索引的前两行数据
输出结果:
好啦,就先到这里啦~