定义:
DataFrame是二维的、大小可变的、成分混合的、具有标签化坐标轴(行和列)的表数据结构。基于行和列标签进行计算。可以被看作是为序列对象(Series)提供的类似字典的一个容器,是pandas中主要的数据结构。
形式:
class pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
参数含义:
data : numpy ndarray(多维数组)(结构化或同质化的), dict(字典), orDataFrame(数据表)如果是字典类型,该字典可以包含序列,数组,常量或类列表型对象
index : Indexor array-like 索引或数组类型,如果输入数据中没有索引信息以及没有提供索引时默认赋值为arange(n)即从0开始的等差数组
columns : Indexor array-like 索引或数组类型,没有提供列标签时默认赋值为0开始的等差数组
dtype : dtype, default None 数据类型,默认为空。只允许有一种数据类型,如果为空,自动推断类型
copy : boolean, default False 布尔类型,默认为False。从输入值中拷贝数据,只对输入为DataFrame或者二维数组时有影响
其他构建DataFrame类型的方法:
classmethod DataFrame.from_records(data, index=None, exclude=None, columns=None, coerce_float=False, nrows=None)[source]
classmethod DataFrame.from_dict(data, orient='columns', dtype=None)
pandas.read_csv, pandas.read_table, pandas.read_clipboard,pandas.read_excel等
举例:
从字典构建DataFrame
>>> d = {'col1': [1, 2], 'col2': [3, 4]}>>> df = pd.DataFrame(data=d)>&