数据帧
构造函数
DataFrame([数据,索引,列,dtype,副本]) 具有标注轴(行和列)的二维大小可变的,可能是异构的表格数据结构。
属性和底层数据
轴数
DataFrame.index DataFrame的索引(行标签)。
DataFrame.columns DataFrame的列标签。
DataFrame.dtypes 返回DataFrame中的dtype。
DataFrame.ftypes (不推荐使用)返回DataFrame中的ftypes(指示稀疏/密集和dtype)。
DataFrame.get_dtype_counts(self) (不推荐使用)返回此对象中唯一dtypes的计数。
DataFrame.get_ftype_counts(self) (不推荐使用)返回此对象中唯一ftypes的计数。
DataFrame.select_dtypes(self[,包括,排除]) 根据列dtypes返回DataFrame列的子集。
DataFrame.values 返回DataFrame的Numpy表示形式。
DataFrame.get_values(self) (不推荐使用)将稀疏值转换为稠密后返回ndarray。
DataFrame.axes 返回一个表示DataFrame轴的列表。
DataFrame.ndim 返回一个表示轴数/数组维数的整数。
DataFrame.size 返回一个int表示此对象中元素的数量。
DataFrame.shape 返回一个表示DataFrame维数的元组。
DataFrame.memory_usage(self [,index,deep]) 返回每列的内存使用情况(以字节为单位)。
DataFrame.empty 指示DataFrame是否为空。
DataFrame.is_copy 返回副本。
转换
DataFrame.astype(self,dtype [,复制,错误]) 将pandas对象转换为指定的dtype dtype。
DataFrame.infer_objects(self) 尝试为对象列推断更好的dtype。
DataFrame.copy(self[,深层]) 复制该对象的索引和数据。
DataFrame.isna(self) 检测缺失值。
DataFrame.notna(self) 检测现有(非缺失)值。
DataFrame.bool(self) 返回单个元素PandasObject的布尔值。
索引,迭代
DataFrame.head(self[,n]) 返回前n行。默认n=5
DataFrame.at 访问行/列标签对的单个值。
DataFrame.iat 通过整数位置访问行/列对的单个值。
DataFrame.loc 通过标签或布尔数组访问一组行和列。
DataFrame.iloc 基于位置的纯基于整数位置的索引。
DataFrame.insert(self,位置,列,值[,…]) 将列插入到DataFrame中的指定位置。
DataFrame.__iter__(self) 遍历信息轴。
DataFrame.items(self) 迭代器(列名,系列)对。
DataFrame.iteritems(self) 迭代器(列名,系列)对。
DataFrame.keys(self) 获取“信息轴”(有关更多信息,请参见索引)
DataFrame.iterrows(self) 将DataFrame行作为(索引,系列)对进行迭代。
DataFrame.itertuples(self[,索引,名称]) 以namedtuple的形式遍历DataFrame行。
DataFrame.lookup(self,row_labels,col_labels) DataFrame基于标签的“花式索引”功能。
DataFrame.pop(个体,物品) 返回项目并从框架中放下。
DataFrame.tail(self[,n]) 返回最后n行。默认n=5
DataFrame.xs(self,键[,轴,水平,…]) 从Series / DataFrame返回横截面。
DataFrame.get(self,键[,默认]) 从对象获取给定键的项目(例如:DataFrame列)。
DataFrame.isin(self,价值观) DataFrame中的每个元素是否包含在值中。
DataFrame.where(self,cond [,其他,…]) 替换条件为False的值。
DataFrame.mask(self,cond [,其他,就位,…]) 替换条件为True的值。
DataFrame.query(self,expr [,就位]) 使用布尔表达式查询DataFrame的列。
有关更多信息.at,.iat,.loc,和 .iloc,看到索引文件。
二元运算功能
DataFrame.add(self,other [,轴,水平,…]) 获取数据帧和其他元素的加法(二进制运算符add)。
DataFrame.sub(self,other [,轴,水平,…]) 获取数据帧和其他元素的减法(二进制运算符sub)。
DataFrame.mul(self,other [,轴,水平,…]) 获取数据帧和其他逐元素的乘法(二进制运算符mul)。
DataFrame.div(self,other [,轴,水平,…]) 获取数据框和其他元素的浮动划分(二进制运算符truediv)。
DataFrame.truediv(self,other [,轴,...]) 获取数据框和其他元素的浮动划分(二进制运算符truediv)。
DataFrame.floordiv(self,other [,轴,...]) 获取数据帧和其他按元素的整数分割(二进制运算符floordiv)。
DataFrame.mod(self,other [,轴,水平,…]) 获取数据帧的模数和其他逐元素的模数(二进制运算符mod)。
DataFrame.pow(self,other [,轴,水平,…]) 获取数据帧和其他逐元素的指数幂(二进制运算符pow)。
DataFrame.dot(self) 计算DataFrame与其他框架之间的矩阵乘法。
DataFrame.radd(self,other [,轴,水平,…]) 获取数据帧和其他元素的加法(二进制运算符radd)。
DataFrame.rsub(self,other [,轴,水平,…]) 获取数据帧的减法和其他逐元素(二进制运算符rsub)。
DataFrame.rmul(self,other [,轴,水平,…]) 获取数据帧和其他逐元素的乘法(二进制运算符rmul)。
DataFrame.rdiv(self,other [,轴,水平,…]) 获取数据帧和其他逐元素的浮点除法(二进制运算符rtruediv)。
DataFrame.rtruediv(self,other [,轴,...]) 获取数据帧和其他逐元素的浮点除法(二进制运算符rtruediv)。
DataFrame.rfloordiv(self,other [,轴,...]) 获取数据帧和其他逐元素的整数分割(二进制运算符rfloordiv)。
DataFrame.rmod(self,other [,轴,水平,…]) 获取数据帧的Modulo和其他元素(二进制运算符rmod)。
DataFrame.rpow(self,other [,轴,水平,…]) 获取数据帧和其他逐元素的指数幂(二进制运算符rpow)。
DataFrame.lt(self,其他[,轴,级别]) 获得小于dataframe和其他元素形式的值(二进制运算符lt)。
DataFrame.gt(self,其他[,轴,级别]) 获取大于dataframe和其他逐个元素(二进制运算符gt)的值。
DataFrame.le(self,其他[,轴,级别]) 获取小于或等于dataframe和其他逐元素(二进制运算符le)。
DataFrame.ge(self,其他[,轴,级别]) 获取大于或等于dataframe和其他逐元素(二进制运算符ge)。
DataFrame.ne(self,其他[,轴,级别]) 获取不等于dataframe和其他按元素计的值(二进制运算符ne)。
DataFrame.eq(self,其他[,轴,级别]) 等于等于dataframe和其他逐元素(二进制运算符eq)。
DataFrame.combine(self,其他人,func [,…]) 与另一个DataFrame进行按列组合。
DataFrame.combine_first(其他) 在other中的相同位置使用值更新null元素。
函数应用程序,GroupBy和窗口
DataFrame.apply(self, func, axis=0, broadcast=None, raw=False, reduce=None, result_type=None, args=(), **kwds) 按行/列调用自定义函数
DataFrame.applymap(self,功能) 将一个函数应用于Dataframe元素。
DataFrame.pipe(self,函数,\ * args,\ * \ * kwargs) 应用func(self,* args,** kwargs)。
DataFrame.agg(self,func [,轴]) 使用指定轴上的一项或多项操作进行汇总。
DataFrame.aggregate(self,func [,轴]) 使用指定轴上的一项或多项操作进行汇总。
DataFrame.transform(self,func [,轴]) 调用funcself来生成具有转换后的值且具有与self相同的轴长的DataFrame。
DataFrame.groupby(self [,按轴,水平,…]) 使用映射器或按一系列列对DataFrame或Series进行分组。
DataFrame.rolling(self,window [,…]) 提供滚动窗口计算。
DataFrame.expanding(self [,min_periods,…]) 提供扩展的转换。
DataFrame.ewm(self [,com,跨度,半衰期,…]) 提供指数加权函数。
计算/描述统计
DataFrame.abs(self) 返回具有每个元素的绝对数值的Series / DataFrame。
DataFrame.all(self [,axis,bool_only,…]) 返回是否所有元素都为True(可能在某个轴上)。
DataFrame.any(self [,axis,bool_only,…]) 返回是否有任何元素为True(可能在某个轴上)。
DataFrame.clip(self [,下,上,轴,…]) 修剪输入阈值处的值。
DataFrame.clip_lower(self,阈值[,…]) (不建议使用)将值修整到给定阈值以下。
DataFrame.clip_upper(self,阈值[,…]) (不建议使用)修剪超过给定阈值的值。
DataFrame.compound(self [,轴,skipna,级别]) (不推荐)返回所请求轴值的复合百分比。
DataFrame.corr(self [,方法,min_periods]) 计算列的成对相关,不包括NA /空值。
DataFrame.corrwith(self,other [,轴,...]) 计算DataFrame的行或列与Series或DataFrame的行或列之间的成对相关性。
DataFrame.count(self [,轴,水平,…]) 为每一列或每一行计算非NA单元。
DataFrame.cov(self [,min_periods]) 计算列的成对协方差,不包括NA /空值。
DataFrame.cummax(self [,axis,skipna]) 返回DataFrame或Series轴上的累积最大值。
DataFrame.cummin(self [,axis,skipna]) 返回DataFrame或Series轴上的累积最小值。
DataFrame.cumprod(self [,axis,skipna]) 通过DataFrame或Series轴返回累积乘积。
DataFrame.cumsum(self [,axis,skipna]) 返回DataFrame或Series轴上的累积总和。
DataFrame.describe(self[,百分位数,...]) 生成描述性统计信息,以汇总数据集分布的集中趋势,离散度和形状(不包括NaN值)。
DataFrame.diff(self [,句号,轴]) 元素的第一个离散差。
DataFrame.eval(self,expr [,就位]) 评估描述DataFrame列上的操作的字符串。
DataFrame.kurt(self [,轴,skipna,水平,…]) 使用Fisher的峰度定义(正常的峰度== 0.0)在请求的轴上返回无偏峰度。
DataFrame.kurtosis(self [,axis,skipna,…]) 使用Fisher的峰度定义(正常的峰度== 0.0)在请求的轴上返回无偏峰度。
DataFrame.mad(self [,轴,skipna,级别]) 返回所请求轴的值的平均绝对偏差。
DataFrame.max(self [,轴,skipna,水平,…]) 返回所请求轴的最大值。
DataFrame.mean(self [,轴,skipna,水平,…]) 返回所请求轴的值的平均值。
DataFrame.median(self [,axis,skipna,…]) 返回所请求轴的值的中值。
DataFrame.min(self [,轴,skipna,水平,…]) 返回所请求轴的最小值。
DataFrame.mode(self [,axis,numeric_only,…]) 获取沿选定轴的每个元素的模式。
DataFrame.pct_change(self [,句号,…]) 当前元素与先前元素之间的百分比变化。
DataFrame.prod(self [,轴,skipna,水平,…]) 返回所请求轴的值的乘积。
DataFrame.product(self [,axis,skipna,…]) 返回所请求轴的值的乘积。
DataFrame.quantile(self [,q,轴,…]) 在请求的轴上以给定的分位数返回值。
DataFrame.rank(self [,轴,方法,…]) 计算沿轴的数值数据等级(1到n)。
DataFrame.round(self[,小数点]) 将DataFrame舍入到小数位数可变。
DataFrame.sem(self [,轴,skipna,水平,…]) 返回要求轴上的平均值的无偏标准误差。
DataFrame.skew(self [,轴,skipna,水平,…]) 在请求的轴上返回无偏斜,由N-1归一化。
DataFrame.sum(self [,轴,skipna,水平,…]) 返回所请求轴的值之和。
DataFrame.std(self [,轴,skipna,水平,…]) 返回要求轴上的样品标准偏差。
DataFrame.var(self [,轴,skipna,水平,…]) 返回请求轴上的无偏方差。
DataFrame.nunique(self [,axis,dropna]) 计算请求轴上的不同观察值。
重新索引/选择/标签操作
DataFrame.add_prefix(self,前缀) 带字符串前缀的前缀标签。
DataFrame.add_suffix(后缀) 带字符串后缀的后缀标签。
DataFrame.align(self,other [,联接,轴,...]) 将每个轴上的两个对象与每个轴的索引指定的连接方法对齐。
DataFrame.at_time(self,时间[,asof,轴]) 选择一天中特定时间的值(例如,
DataFrame.between_time(self,开始时间,…) 选择一天中特定时间(例如9:00-9:30 AM)之间的值。
DataFrame.drop(self [,标签,轴,索引,…]) 从行或列中删除指定的标签。
DataFrame.drop_duplicates(self [,子集,…]) 返回删除了重复行的DataFrame,可以选择仅考虑某些列。
DataFrame.duplicated(self [,子集,保留]) 返回表示重复行的布尔系列,可以选择仅考虑某些列。
DataFrame.equals(其他) 测试两个对象是否包含相同的元素。
DataFrame.filter(self [,项,例如正则表达式,…]) 根据指定索引中的标签对数据框的行或列进行子集设置。
DataFrame.first(self,抵消) 一种基于日期偏移量来设置时间序列数据的初始时段的便捷方法。
DataFrame.head(self[,n]) 返回前n行。
DataFrame.idxmax(self [,axis,skipna]) 返回在请求轴上第一次出现最大值的索引。
DataFrame.idxmin(self [,axis,skipna]) 返回在请求轴上第一次出现最小值的索引。
DataFrame.last(self,抵消) 一种基于日期偏移量来划分时间序列数据的最终期间的便捷方法。
DataFrame.reindex(self [,标签,索引,…]) 使用可选的填充逻辑使DataFrame与新索引一致,将NA / NaN放在上一个索引中没有值的位置。
DataFrame.reindex_like(self,其他[,…]) 返回具有匹配索引的对象作为其他对象。
DataFrame.rename(self [,映射器,索引,…]) 更改轴标签。
DataFrame.rename_axis(self [,映射器,索引,…]) 设置索引或列的轴名称。
DataFrame.reset_index(self [,水平,下降,…]) 重置索引或索引的级别。
DataFrame.sample(self [,n,frac,replace,…]) 从对象轴返回随机的项目样本。
DataFrame.set_axis(self,标签[,轴,原地]) 将所需的索引分配给给定的轴。
DataFrame.set_index(self,键[,放下,…]) 使用现有列设置DataFrame索引。
DataFrame.tail(self[,n]) 返回最后n行。
DataFrame.take(self,索引[,轴,is_copy]) 沿轴返回给定位置索引中的元素。
DataFrame.truncate(self [,之前,之后,…]) 在某个索引值之前和之后截断Series或DataFrame。
丢失的数据处理
DataFrame.dropna(self [,轴,方式,脱粒,…]) 删除缺失的值。
DataFrame.fillna(self [,值,方法,…]) 使用指定的方法填充NA / NaN值。
DataFrame.replace(self [,to_replace,值,…]) 将to_replace中给出的值替换为value。
DataFrame.interpolate(self [,方法,轴,…]) 根据不同的方法插值。
重塑,排序,转置
DataFrame.droplevel(self,水平[,轴]) 返回已删除请求的索引/列级别的DataFrame。
DataFrame.pivot(self [,索引,列,值]) 返回按给定的索引/列值组织的重整型DataFrame。
DataFrame.pivot_table(self, values=None, index=None, columns=None, aggfunc=‘mean’, fill_value=None, margins=False, dropna=True, margins_name=‘All’) 将电子表格样式的数据透视表创建为DataFrame。
DataFrame.reorder_levels(self,order [,轴]) 使用输入顺序重新排列索引级别。
DataFrame.sort_values(self,by [,轴,...]) 沿任一轴的值排序。
DataFrame.sort_index(self [,轴,水平,…]) 按标签(沿轴)对对象排序。
DataFrame.nlargest(self,n,列[,保留]) 返回按列降序排列的前n行。
DataFrame.nsmallest(self,n,列[,保留]) 返回按列升序排列的前n行。
DataFrame.swaplevel(self [,i,j,轴]) 在特定轴上的MultiIndex中交换级别i和j。
DataFrame.stack(self [,level,dropna]) 从列到索引堆叠指定级别。
DataFrame.unstack(self[,水平,填充值]) 旋转一个级别的(必要的层次结构)索引标签,返回一个具有新级别列标签的DataFrame,该列标签的最内层由旋转的索引标签组成。
DataFrame.swapaxes(self,axis1,axis2 [,复制]) 适当交换轴和交换值轴。
DataFrame.melt(self [,id_vars,value_vars,…]) 取消将DataFrame从宽格式更改为长格式,可以选择保留标识符变量。
DataFrame.explode(self,列,元组) 将类似列表的每个元素转换为一行,从而复制索引值。
DataFrame.squeeze(self [,轴]) 将一维轴对象压缩为标量。
DataFrame.to_xarray(self) 从pandas对象返回一个xarray对象。
DataFrame.T 转置索引和列。
DataFrame.transpose(self,\ * args,\ * \ * kwargs) 转置索引和列。
结合/加盟/合并
DataFrame.append(self,其他[,…]) 将其他行附加到调用方的末尾,并返回一个新对象。
DataFrame.assign(self,\ * \ * kwargs) 将新列分配给DataFrame。
DataFrame.join(self,其他[,关于,如何,……]) 连接另一个DataFrame的列。
DataFrame.merge(self,正确的[,如何操作,在...上]) 用数据库样式的联接合并DataFrame或命名的Series对象。
DataFrame.update(self,其他[,加入,…]) 使用来自另一个DataFrame的非NA值就地进行修改。
与时间序列有关的
DataFrame.asfreq(self,freq [,方法,方法,…]) 将TimeSeries转换为指定的频率。
DataFrame.asof(self,where [,子集]) 返回where之前没有任何NaN的最后一行。
DataFrame.shift(self [,句号,频率,轴,…]) 将索引按期望的周期数移动,并带有可选的时间频率。
DataFrame.slice_shift(self [,句号,轴]) 等效于不复制数据的移位。
DataFrame.tshift(self [,句号,频率,轴]) 移动时标,使用时标的频率(如果有)。
DataFrame.first_valid_index(self) 返回第一个非NA /空值的索引。
DataFrame.last_valid_index(self) 返回上一个非NA /空值的索引。
DataFrame.resample(self,rule [,方法,轴,...]) 重新采样时间序列数据。
DataFrame.to_period(self [,频率,轴,副本]) 以所需的频率(从索引推断出是否传递)将DataFrame从DatetimeIndex转换为PeriodIndex。
DataFrame.to_timestamp(self [,freq,how,…]) 在时段开始时强制转换为时间戳的DatetimeIndex 。
DataFrame.tz_convert(self,tz [,轴,...]) 将可感知tz的轴转换为目标时区。
DataFrame.tz_localize(self,tz [,轴,...]) 将Series或DataFrame的tz天真索
引本地化为目标时区。
绘图
DataFrame.plot是形式的特定绘图方法的可调用方法和名称空间属性DataFrame.plot.。
DataFrame.plot([x,y,kind,ax,…。]) DataFrame绘图访问器和方法
DataFrame.plot.area(self [,x,y]) 绘制堆积面积图。
DataFrame.plot.bar(self [,x,y]) 垂直条形图。
DataFrame.plot.barh(self [,x,y]) 绘制水平条形图。
DataFrame.plot.box(self[,作者]) 绘制DataFrame列的箱形图。
DataFrame.plot.density(self [,bw_method,ind]) 使用高斯核生成核密度估计图。
DataFrame.plot.hexbin(self,x,y [,C,...]) 生成六角形装仓图。
DataFrame.plot.hist(self [,by,bins]) 绘制一个DataFrame列的直方图。
DataFrame.plot.kde(self [,bw_method,ind]) 使用高斯核生成核密度估计图。
DataFrame.plot.line(self [,x,y]) 将Series或DataFrame绘制为线。
DataFrame.plot.pie(self,\ * \ * kwargs) 生成饼图。
DataFrame.plot.scatter(self,x,y [,s,c]) 创建具有不同标记点大小和颜色的散点图。
DataFrame.boxplot(self [,column,by,ax,…]) 从DataFrame列制作箱形图。
DataFrame.hist(数据[,列,依据,网格,…]) 制作DataFrame的直方图。
稀疏访问器
访问器下提供了稀疏类型特定的方法和属性 DataFrame.sparse。
DataFrame.sparse.density 非稀疏点与DataFrame中表示的总(密集)数据点的比率。
DataFrame.sparse.from_spmatrix(数据[,…]) 从稀疏稀疏矩阵创建一个新的DataFrame。
DataFrame.sparse.to_coo(self) 返回框架的内容作为稀疏的SciPy COO矩阵。
DataFrame.sparse.to_dense(self) 将具有稀疏值的DataFrame转换为稠密的。
序列化/ IO /转换
DataFrame.from_dict(data [,Orient,dtype,…]) 从类似数组或字典的字典构造DataFrame。
DataFrame.from_items(items [,colums,orient]) (不推荐使用)从元组列表构造一个DataFrame。
DataFrame.from_records(数据[,索引,…]) 将结构化或记录ndarray转换为DataFrame。
DataFrame.info(self [,详细,buf,…]) 打印DataFrame的简要摘要。
DataFrame.to_parquet(self,fname [,引擎,...]) 将DataFrame写入二进制拼花格式。
DataFrame.to_pickle(self,路径[,…]) 将对象腌制(序列化)到文件。
DataFrame.to_csv(self [,path_or_buf,sep,…]) 将对象写入逗号分隔值(csv)文件。
DataFrame.to_hdf(self,path_or_buf,键等) 使用HDFStore将包含的数据写入HDF5文件。
DataFrame.to_sql(self,名称,con [,模式...]) 将存储在DataFrame中的记录写入SQL数据库。
DataFrame.to_dict(self[,定向到]) 将DataFrame转换为字典。
DataFrame.to_excel(self,excel_writer [,…]) 将对象写入Excel工作表。
DataFrame.to_json(self [,path_or_buf,…]) 将对象转换为JSON字符串。
DataFrame.to_html(self [,buf,列,…]) 将DataFrame呈现为HTML表。
DataFrame.to_feather(self,fname) 写出DataFrames的二进制羽毛格式。
DataFrame.to_latex(self [,buf,列,…]) 将对象渲染到LaTeX表格环境表。
DataFrame.to_stata(self,fname [,…]) 将DataFrame对象导出为Stata dta格式。
DataFrame.to_msgpack(self [,path_or_buf,…]) (已弃用)使用msgpack格式将对象序列化为输入文件路径。
DataFrame.to_gbq(self,destination_table [,…]) 将DataFrame写入Google BigQuery表。
DataFrame.to_records(self [,索引,…]) 将DataFrame转换为NumPy记录数组。
DataFrame.to_sparse(self [,fill_value,种类]) (不推荐)转换为SparseDataFrame。
DataFrame.to_dense(self) (不推荐使用)返回Series / DataFrame的密集表示形式(与稀疏相反)。
DataFrame.to_string(self [,buf,列,…]) 将DataFrame渲染到控制台友好的表格输出。
DataFrame.to_clipboard(self [,excel,sep]) 将对象复制到系统剪贴板。
DataFrame.style 返回一个Styler对象的属性,该对象包含用于构建DataFrame的样式化HTML表示形式的方法。
稀疏
SparseDataFrame.to_coo(self) 返回框架的内容作为稀疏的SciPy COO矩阵。