pd.DataFrame()
DataFrame 是一种二维的数据模型,相当于EXcel表格中的数据,有横竖两种坐标,横轴用columns,竖轴用index 来确定,在建立DataFrame 对象的时候,需要确定三个元素:数据,竖轴,横轴。
DataFrame既有行索引也有列索引,
import pandas as pd
import numpy as np
a = pd.DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz'))
print(a)
1. 设置索引index
a.index = a['x']
print(a)
//可新建一个DataFrame,index设置为别的表格index
labels = pd.DataFrame(columns=['s','x'],index=a.index)
print(labels)
2. a.iloc[行位置,列位置]
通过默认生成的数字索引查询指定的数据
下面表格说明:
- i值里的数字可以为正数也可以为负数,正数0代表第一行,1代表第2行;负数 -1代表倒数第一行,-2代表倒数第2行
方法 | 说明:行(列)数索引值从0开始 |
---|---|
a.iloc[i] | i值可以是数字也可以是一个数组,获取第i行数据或者行子集 |
a.iloc[:,j] | j值可以是数字也可以是一个数组, 获取第j列数据或者列子集 |
a.iloc[i,j] | 获取第i行第j列的值 |
1. a.iloc[i] 获取第i行数据或者行子集
print(a)
print(a.iloc[0]) #获取第一行数据
print(a.iloc[:2]) #获取第一行和第二行
print(a.iloc[1:]) #获取第二行到最后一行的数据
print(a.iloc[[0,-1]]) #获取第一行和倒数第一行数据
2. a.iloc[:,j] 获取第j列数据或者列子集
print(a.iloc(:,0) #获取第0列数据
print(a.iloc[:,[0,1]]) #获取第一列和第二列数据
print(a.iloc[:,:2]) #获取第一列和第2列
3. a.iloc[i,j] 获取第i行第j列的值
print.iloc(-1,0) #获取倒数第一行第一列数据,即 12
print(a.iloc[1,[0,1]]) #获取第2行,第一二列数据
print(a.iloc[[0,1],2]) #获取第一二行第3列数据
print(a.iloc[[0,1],[1,2]]) #获取第一二行的第二三列数据
3. 将Pandas中的DataFrame类型转换成Numpy中array类
在用pandas包和numpy包对数据进行分析和计算时,经常用到DataFrame和array类型的数据。在对DataFrame类型的数据进行处理时,需要将其转换成array类型