数据类型
Pandas 的数据类型主要有Series(一维数组),DataFrame(二维数组),Panel(三维数组),Panel4D(四维数组),PanelND(N维数组)。
Series
Series 基本结构为:pandas.Series(data=None, index=None)
其中 data 是数据,index 是索引。
DataFrame
DataFrame 基本结构为:pandas.DataFrame(data=None, index=None, columns=None)
与 Series相比,增加了 columns 列索引。
数据类型转换
Array转DataFrame
a = pd.DataFrame(a)
DataFrame转Array
a = df.values()
数据选择
选择数据进行读取有两种选择,分别为基于索引数字选择以及基于标签名称选择。基于索引数字选择使用的是 Pandas 中的 .iloc 函数,.iloc 函数接受 [[行],[列]] 这些的参数;基于标签名称选择使用的是 Pandas 中的 .loc 函数,.iloc 函数同样接受 [[行],[列]] 这些的参数。
读取前三行数据
df.iloc[:3]
df.loc[0:2]
读取特定一行数据
df.iloc[3]
读取 1、3、5 行数据
df.iloc[[1, 3, 5]]
df.loc[[0, 2, 4]]
读取 2-4 列数据
df.iloc[:, 1:4]
读取列标签为 ‘A’ 到 ‘C’ 的数据
df.loc[:, 'A':'C']
读取 1,3 行和 ‘C’ 后面的列:
df.loc[[0, 2], 'C':]