pandas方法大全

最新推荐文章于 2024-04-10 09:52:37 发布

Rankiy

最新推荐文章于 2024-04-10 09:52:37 发布

阅读量873

点赞数 3

分类专栏： python库

本文链接：https://blog.csdn.net/rankiy/article/details/102638208

版权

python库专栏收录该内容

11 篇文章 3 订阅

订阅专栏

数据帧

构造函数
转换
索引，迭代
二元运算功能
函数应用程序，GroupBy和窗口
计算/描述统计
重新索引/选择/标签操作
丢失的数据处理
重塑，排序，转置
结合/加盟/合并
与时间序列有关的
稀疏访问器
序列化/ IO /转换

构造函数

DataFrame（[数据，索引，列，dtype，副本]）具有标注轴（行和列）的二维大小可变的，可能是异构的表格数据结构。
属性和底层数据
轴数

DataFrame.index	DataFrame的索引（行标签）。
DataFrame.columns	DataFrame的列标签。
DataFrame.dtypes	返回DataFrame中的dtype。
DataFrame.ftypes	（不推荐使用）返回DataFrame中的ftypes（指示稀疏/密集和dtype）。
DataFrame.get_dtype_counts（self）	（不推荐使用）返回此对象中唯一dtypes的计数。
DataFrame.get_ftype_counts（self）	（不推荐使用）返回此对象中唯一ftypes的计数。
DataFrame.select_dtypes（self[，包括，排除]）	根据列dtypes返回DataFrame列的子集。
DataFrame.values	返回DataFrame的Numpy表示形式。
DataFrame.get_values（self）	（不推荐使用）将稀疏值转换为稠密后返回ndarray。
DataFrame.axes	返回一个表示DataFrame轴的列表。
DataFrame.ndim	返回一个表示轴数/数组维数的整数。
DataFrame.size	返回一个int表示此对象中元素的数量。
DataFrame.shape	返回一个表示DataFrame维数的元组。
DataFrame.memory_usage（self [，index，deep]）	返回每列的内存使用情况（以字节为单位）。
DataFrame.empty	指示DataFrame是否为空。
DataFrame.is_copy	返回副本。

转换

DataFrame.astype（self，dtype [，复制，错误]）	将pandas对象转换为指定的dtype dtype。
DataFrame.infer_objects（self）	尝试为对象列推断更好的dtype。
DataFrame.copy（self[，深层]）	复制该对象的索引和数据。
DataFrame.isna（self）	检测缺失值。
DataFrame.notna（self）	检测现有（非缺失）值。
DataFrame.bool（self）	返回单个元素PandasObject的布尔值。

索引，迭代

DataFrame.head（self[，n]）	返回前n行。默认n=5
DataFrame.at	访问行/列标签对的单个值。
DataFrame.iat	通过整数位置访问行/列对的单个值。
DataFrame.loc	通过标签或布尔数组访问一组行和列。
DataFrame.iloc	基于位置的纯基于整数位置的索引。
DataFrame.insert（self，位置，列，值[，…]）	将列插入到DataFrame中的指定位置。
DataFrame.__iter__（self）	遍历信息轴。
DataFrame.items（self）	迭代器（列名，系列）对。
DataFrame.iteritems（self）	迭代器（列名，系列）对。
DataFrame.keys（self）	获取“信息轴”（有关更多信息，请参见索引）
DataFrame.iterrows（self）	将DataFrame行作为（索引，系列）对进行迭代。
DataFrame.itertuples（self[，索引，名称]）	以namedtuple的形式遍历DataFrame行。
DataFrame.lookup（self，row_labels，col_labels）	DataFrame基于标签的“花式索引”功能。
DataFrame.pop（个体，物品）	返回项目并从框架中放下。
DataFrame.tail（self[，n]）	返回最后n行。默认n=5
DataFrame.xs（self，键[，轴，水平，…]）	从Series / DataFrame返回横截面。
DataFrame.get（self，键[，默认]）	从对象获取给定键的项目（例如：DataFrame列）。
DataFrame.isin（self，价值观）	DataFrame中的每个元素是否包含在值中。
DataFrame.where（self，cond [，其他，…]）	替换条件为False的值。
DataFrame.mask（self，cond [，其他，就位，…]）	替换条件为True的值。
DataFrame.query（self，expr [，就位]）	使用布尔表达式查询DataFrame的列。

有关更多信息.at，.iat，.loc，和 .iloc，看到索引文件。

二元运算功能

DataFrame.add（self，other [，轴，水平，…]）	获取数据帧和其他元素的加法（二进制运算符add）。
DataFrame.sub（self，other [，轴，水平，…]）	获取数据帧和其他元素的减法（二进制运算符sub）。
DataFrame.mul（self，other [，轴，水平，…]）	获取数据帧和其他逐元素的乘法（二进制运算符mul）。
DataFrame.div（self，other [，轴，水平，…]）	获取数据框和其他元素的浮动划分（二进制运算符truediv）。
DataFrame.truediv（self，other [，轴，...]）	获取数据框和其他元素的浮动划分（二进制运算符truediv）。
DataFrame.floordiv（self，other [，轴，...]）	获取数据帧和其他按元素的整数分割（二进制运算符floordiv）。
DataFrame.mod（self，other [，轴，水平，…]）	获取数据帧的模数和其他逐元素的模数（二进制运算符mod）。
DataFrame.pow（self，other [，轴，水平，…]）	获取数据帧和其他逐元素的指数幂（二进制运算符pow）。
DataFrame.dot（self）	计算DataFrame与其他框架之间的矩阵乘法。
DataFrame.radd（self，other [，轴，水平，…]）	获取数据帧和其他元素的加法（二进制运算符radd）。
DataFrame.rsub（self，other [，轴，水平，…]）	获取数据帧的减法和其他逐元素（二进制运算符rsub）。
DataFrame.rmul（self，other [，轴，水平，…]）	获取数据帧和其他逐元素的乘法（二进制运算符rmul）。
DataFrame.rdiv（self，other [，轴，水平，…]）	获取数据帧和其他逐元素的浮点除法（二进制运算符rtruediv）。
DataFrame.rtruediv（self，other [，轴，...]）	获取数据帧和其他逐元素的浮点除法（二进制运算符rtruediv）。
DataFrame.rfloordiv（self，other [，轴，...]）	获取数据帧和其他逐元素的整数分割（二进制运算符rfloordiv）。
DataFrame.rmod（self，other [，轴，水平，…]）	获取数据帧的Modulo和其他元素（二进制运算符rmod）。
DataFrame.rpow（self，other [，轴，水平，…]）	获取数据帧和其他逐元素的指数幂（二进制运算符rpow）。
DataFrame.lt（self，其他[，轴，级别]）	获得小于dataframe和其他元素形式的值（二进制运算符lt）。
DataFrame.gt（self，其他[，轴，级别]）	获取大于dataframe和其他逐个元素（二进制运算符gt）的值。
DataFrame.le（self，其他[，轴，级别]）	获取小于或等于dataframe和其他逐元素（二进制运算符le）。
DataFrame.ge（self，其他[，轴，级别]）	获取大于或等于dataframe和其他逐元素（二进制运算符ge）。
DataFrame.ne（self，其他[，轴，级别]）	获取不等于dataframe和其他按元素计的值（二进制运算符ne）。
DataFrame.eq（self，其他[，轴，级别]）	等于等于dataframe和其他逐元素（二进制运算符eq）。
DataFrame.combine（self，其他人，func [，…]）	与另一个DataFrame进行按列组合。
DataFrame.combine_first（其他）	在other中的相同位置使用值更新null元素。

函数应用程序，GroupBy和窗口

apply

DataFrame.apply(self, func, axis=0, broadcast=None, raw=False, reduce=None, result_type=None, args=(), **kwds) 按行/列调用自定义函数
DataFrame.applymap（self，功能）	将一个函数应用于Dataframe元素。
DataFrame.pipe（self，函数，\ * args，\ * \ * kwargs）	应用func（self，* args，** kwargs）。
DataFrame.agg（self，func [，轴]）	使用指定轴上的一项或多项操作进行汇总。
DataFrame.aggregate（self，func [，轴]）	使用指定轴上的一项或多项操作进行汇总。
DataFrame.transform（self，func [，轴]）	调用funcself来生成具有转换后的值且具有与self相同的轴长的DataFrame。
DataFrame.groupby（self [，按轴，水平，…]）	使用映射器或按一系列列对DataFrame或Series进行分组。
DataFrame.rolling（self，window [，…]）	提供滚动窗口计算。
DataFrame.expanding（self [，min_periods，…]）	提供扩展的转换。
DataFrame.ewm（self [，com，跨度，半衰期，…]）	提供指数加权函数。

计算/描述统计

DataFrame.abs（self）	返回具有每个元素的绝对数值的Series / DataFrame。
DataFrame.all（self [，axis，bool_only，…]）	返回是否所有元素都为True（可能在某个轴上）。
DataFrame.any（self [，axis，bool_only，…]）	返回是否有任何元素为True（可能在某个轴上）。
DataFrame.clip（self [，下，上，轴，…]）	修剪输入阈值处的值。
DataFrame.clip_lower（self，阈值[，…]）	（不建议使用）将值修整到给定阈值以下。
DataFrame.clip_upper（self，阈值[，…]）	（不建议使用）修剪超过给定阈值的值。
DataFrame.compound（self [，轴，skipna，级别]）	（不推荐）返回所请求轴值的复合百分比。
DataFrame.corr（self [，方法，min_periods]）	计算列的成对相关，不包括NA /空值。
DataFrame.corrwith（self，other [，轴，...]）	计算DataFrame的行或列与Series或DataFrame的行或列之间的成对相关性。
DataFrame.count（self [，轴，水平，…]）	为每一列或每一行计算非NA单元。
DataFrame.cov（self [，min_periods]）	计算列的成对协方差，不包括NA /空值。
DataFrame.cummax（self [，axis，skipna]）	返回DataFrame或Series轴上的累积最大值。
DataFrame.cummin（self [，axis，skipna]）	返回DataFrame或Series轴上的累积最小值。
DataFrame.cumprod（self [，axis，skipna]）	通过DataFrame或Series轴返回累积乘积。
DataFrame.cumsum（self [，axis，skipna]）	返回DataFrame或Series轴上的累积总和。
DataFrame.describe（self[，百分位数，...]）	生成描述性统计信息，以汇总数据集分布的集中趋势，离散度和形状（不包括NaN值）。
DataFrame.diff（self [，句号，轴]）	元素的第一个离散差。
DataFrame.eval（self，expr [，就位]）	评估描述DataFrame列上的操作的字符串。
DataFrame.kurt（self [，轴，skipna，水平，…]）	使用Fisher的峰度定义（正常的峰度== 0.0）在请求的轴上返回无偏峰度。
DataFrame.kurtosis（self [，axis，skipna，…]）	使用Fisher的峰度定义（正常的峰度== 0.0）在请求的轴上返回无偏峰度。
DataFrame.mad（self [，轴，skipna，级别]）	返回所请求轴的值的平均绝对偏差。
DataFrame.max（self [，轴，skipna，水平，…]）	返回所请求轴的最大值。
DataFrame.mean（self [，轴，skipna，水平，…]）	返回所请求轴的值的平均值。
DataFrame.median（self [，axis，skipna，…]）	返回所请求轴的值的中值。
DataFrame.min（self [，轴，skipna，水平，…]）	返回所请求轴的最小值。
DataFrame.mode（self [，axis，numeric_only，…]）	获取沿选定轴的每个元素的模式。
DataFrame.pct_change（self [，句号，…]）	当前元素与先前元素之间的百分比变化。
DataFrame.prod（self [，轴，skipna，水平，…]）	返回所请求轴的值的乘积。
DataFrame.product（self [，axis，skipna，…]）	返回所请求轴的值的乘积。
DataFrame.quantile（self [，q，轴，…]）	在请求的轴上以给定的分位数返回值。
DataFrame.rank（self [，轴，方法，…]）	计算沿轴的数值数据等级（1到n）。
DataFrame.round（self[，小数点]）	将DataFrame舍入到小数位数可变。
DataFrame.sem（self [，轴，skipna，水平，…]）	返回要求轴上的平均值的无偏标准误差。
DataFrame.skew（self [，轴，skipna，水平，…]）	在请求的轴上返回无偏斜，由N-1归一化。
DataFrame.sum（self [，轴，skipna，水平，…]）	返回所请求轴的值之和。
DataFrame.std（self [，轴，skipna，水平，…]）	返回要求轴上的样品标准偏差。
DataFrame.var（self [，轴，skipna，水平，…]）	返回请求轴上的无偏方差。
DataFrame.nunique（self [，axis，dropna]）	计算请求轴上的不同观察值。

重新索引/选择/标签操作

DataFrame.add_prefix（self，前缀）	带字符串前缀的前缀标签。
DataFrame.add_suffix（后缀）	带字符串后缀的后缀标签。
DataFrame.align（self，other [，联接，轴，...]）	将每个轴上的两个对象与每个轴的索引指定的连接方法对齐。
DataFrame.at_time（self，时间[，asof，轴]）	选择一天中特定时间的值（例如，
DataFrame.between_time（self，开始时间，…）	选择一天中特定时间（例如9：00-9：30 AM）之间的值。
DataFrame.drop（self [，标签，轴，索引，…]）	从行或列中删除指定的标签。
DataFrame.drop_duplicates（self [，子集，…]）	返回删除了重复行的DataFrame，可以选择仅考虑某些列。
DataFrame.duplicated（self [，子集，保留]）	返回表示重复行的布尔系列，可以选择仅考虑某些列。
DataFrame.equals（其他）	测试两个对象是否包含相同的元素。
DataFrame.filter（self [，项，例如正则表达式，…]）	根据指定索引中的标签对数据框的行或列进行子集设置。
DataFrame.first（self，抵消）	一种基于日期偏移量来设置时间序列数据的初始时段的便捷方法。
DataFrame.head（self[，n]）	返回前n行。
DataFrame.idxmax（self [，axis，skipna]）	返回在请求轴上第一次出现最大值的索引。
DataFrame.idxmin（self [，axis，skipna]）	返回在请求轴上第一次出现最小值的索引。
DataFrame.last（self，抵消）	一种基于日期偏移量来划分时间序列数据的最终期间的便捷方法。
DataFrame.reindex（self [，标签，索引，…]）	使用可选的填充逻辑使DataFrame与新索引一致，将NA / NaN放在上一个索引中没有值的位置。
DataFrame.reindex_like（self，其他[，…]）	返回具有匹配索引的对象作为其他对象。
DataFrame.rename（self [，映射器，索引，…]）	更改轴标签。
DataFrame.rename_axis（self [，映射器，索引，…]）	设置索引或列的轴名称。
DataFrame.reset_index（self [，水平，下降，…]）	重置索引或索引的级别。
DataFrame.sample（self [，n，frac，replace，…]）	从对象轴返回随机的项目样本。
DataFrame.set_axis（self，标签[，轴，原地]）	将所需的索引分配给给定的轴。
DataFrame.set_index（self，键[，放下，…]）	使用现有列设置DataFrame索引。
DataFrame.tail（self[，n]）	返回最后n行。
DataFrame.take（self，索引[，轴，is_copy]）	沿轴返回给定位置索引中的元素。
DataFrame.truncate（self [，之前，之后，…]）	在某个索引值之前和之后截断Series或DataFrame。

丢失的数据处理

DataFrame.dropna（self [，轴，方式，脱粒，…]）	删除缺失的值。
DataFrame.fillna（self [，值，方法，…]）	使用指定的方法填充NA / NaN值。
DataFrame.replace（self [，to_replace，值，…]）	将to_replace中给出的值替换为value。
DataFrame.interpolate（self [，方法，轴，…]）	根据不同的方法插值。

重塑，排序，转置

pivot_table

DataFrame.droplevel（self，水平[，轴]）	返回已删除请求的索引/列级别的DataFrame。
DataFrame.pivot（self [，索引，列，值]）	返回按给定的索引/列值组织的重整型DataFrame。
DataFrame.pivot_table(self, values=None, index=None, columns=None, aggfunc=‘mean’, fill_value=None, margins=False, dropna=True, margins_name=‘All’)	将电子表格样式的数据透视表创建为DataFrame。
DataFrame.reorder_levels（self，order [，轴]）	使用输入顺序重新排列索引级别。
DataFrame.sort_values（self，by [，轴，...]）	沿任一轴的值排序。
DataFrame.sort_index（self [，轴，水平，…]）	按标签（沿轴）对对象排序。
DataFrame.nlargest（self，n，列[，保留]）	返回按列降序排列的前n行。
DataFrame.nsmallest（self，n，列[，保留]）	返回按列升序排列的前n行。
DataFrame.swaplevel（self [，i，j，轴]）	在特定轴上的MultiIndex中交换级别i和j。
DataFrame.stack（self [，level，dropna]）	从列到索引堆叠指定级别。
DataFrame.unstack（self[，水平，填充值]）	旋转一个级别的（必要的层次结构）索引标签，返回一个具有新级别列标签的DataFrame，该列标签的最内层由旋转的索引标签组成。
DataFrame.swapaxes（self，axis1，axis2 [，复制]）	适当交换轴和交换值轴。
DataFrame.melt（self [，id_vars，value_vars，…]）	取消将DataFrame从宽格式更改为长格式，可以选择保留标识符变量。
DataFrame.explode（self，列，元组）	将类似列表的每个元素转换为一行，从而复制索引值。
DataFrame.squeeze（self [，轴]）	将一维轴对象压缩为标量。
DataFrame.to_xarray（self）	从pandas对象返回一个xarray对象。
DataFrame.T	转置索引和列。
DataFrame.transpose（self，\ * args，\ * \ * kwargs）	转置索引和列。

结合/加盟/合并

DataFrame.append（self，其他[，…]）	将其他行附加到调用方的末尾，并返回一个新对象。
DataFrame.assign（self，\ * \ * kwargs）	将新列分配给DataFrame。
DataFrame.join（self，其他[，关于，如何，……]）	连接另一个DataFrame的列。
DataFrame.merge（self，正确的[，如何操作，在...上]）	用数据库样式的联接合并DataFrame或命名的Series对象。
DataFrame.update（self，其他[，加入，…]）	使用来自另一个DataFrame的非NA值就地进行修改。

与时间序列有关的

DataFrame.asfreq（self，freq [，方法，方法，…]）	将TimeSeries转换为指定的频率。
DataFrame.asof（self，where [，子集]）	返回where之前没有任何NaN的最后一行。
DataFrame.shift（self [，句号，频率，轴，…]）	将索引按期望的周期数移动，并带有可选的时间频率。
DataFrame.slice_shift（self [，句号，轴]）	等效于不复制数据的移位。
DataFrame.tshift（self [，句号，频率，轴]）	移动时标，使用时标的频率（如果有）。
DataFrame.first_valid_index（self）	返回第一个非NA /空值的索引。
DataFrame.last_valid_index（self）	返回上一个非NA /空值的索引。
DataFrame.resample（self，rule [，方法，轴，...]）	重新采样时间序列数据。
DataFrame.to_period（self [，频率，轴，副本]）	以所需的频率（从索引推断出是否传递）将DataFrame从DatetimeIndex转换为PeriodIndex。
DataFrame.to_timestamp（self [，freq，how，…]）	在时段开始时强制转换为时间戳的DatetimeIndex 。
DataFrame.tz_convert（self，tz [，轴，...]）	将可感知tz的轴转换为目标时区。
DataFrame.tz_localize（self，tz [，轴，...]）	将Series或DataFrame的tz天真索

引本地化为目标时区。
绘图

DataFrame.plot是形式的特定绘图方法的可调用方法和名称空间属性DataFrame.plot.。

DataFrame.plot（[x，y，kind，ax，…。]）	DataFrame绘图访问器和方法
DataFrame.plot.area（self [，x，y]）	绘制堆积面积图。
DataFrame.plot.bar（self [，x，y]）	垂直条形图。
DataFrame.plot.barh（self [，x，y]）	绘制水平条形图。
DataFrame.plot.box（self[，作者]）	绘制DataFrame列的箱形图。
DataFrame.plot.density（self [，bw_method，ind]）	使用高斯核生成核密度估计图。
DataFrame.plot.hexbin（self，x，y [，C，...]）	生成六角形装仓图。
DataFrame.plot.hist（self [，by，bins]）	绘制一个DataFrame列的直方图。
DataFrame.plot.kde（self [，bw_method，ind]）	使用高斯核生成核密度估计图。
DataFrame.plot.line（self [，x，y]）	将Series或DataFrame绘制为线。
DataFrame.plot.pie（self，\ * \ * kwargs）	生成饼图。
DataFrame.plot.scatter（self，x，y [，s，c]）	创建具有不同标记点大小和颜色的散点图。
DataFrame.boxplot（self [，column，by，ax，…]）	从DataFrame列制作箱形图。
DataFrame.hist（数据[，列，依据，网格，…]）	制作DataFrame的直方图。

稀疏访问器

访问器下提供了稀疏类型特定的方法和属性 DataFrame.sparse。

DataFrame.sparse.density	非稀疏点与DataFrame中表示的总（密集）数据点的比率。
DataFrame.sparse.from_spmatrix（数据[，…]）	从稀疏稀疏矩阵创建一个新的DataFrame。
DataFrame.sparse.to_coo（self）	返回框架的内容作为稀疏的SciPy COO矩阵。
DataFrame.sparse.to_dense（self）	将具有稀疏值的DataFrame转换为稠密的。

序列化/ IO /转换

DataFrame.from_dict（data [，Orient，dtype，…]）	从类似数组或字典的字典构造DataFrame。
DataFrame.from_items（items [，colums，orient]）	（不推荐使用）从元组列表构造一个DataFrame。
DataFrame.from_records（数据[，索引，…]）	将结构化或记录ndarray转换为DataFrame。
DataFrame.info（self [，详细，buf，…]）	打印DataFrame的简要摘要。
DataFrame.to_parquet（self，fname [，引擎，...]）	将DataFrame写入二进制拼花格式。
DataFrame.to_pickle（self，路径[，…]）	将对象腌制（序列化）到文件。
DataFrame.to_csv（self [，path_or_buf，sep，…]）	将对象写入逗号分隔值（csv）文件。
DataFrame.to_hdf（self，path_or_buf，键等）	使用HDFStore将包含的数据写入HDF5文件。
DataFrame.to_sql（self，名称，con [，模式...]）	将存储在DataFrame中的记录写入SQL数据库。
DataFrame.to_dict（self[，定向到]）	将DataFrame转换为字典。
DataFrame.to_excel（self，excel_writer [，…]）	将对象写入Excel工作表。
DataFrame.to_json（self [，path_or_buf，…]）	将对象转换为JSON字符串。
DataFrame.to_html（self [，buf，列，…]）	将DataFrame呈现为HTML表。
DataFrame.to_feather（self，fname）	写出DataFrames的二进制羽毛格式。
DataFrame.to_latex（self [，buf，列，…]）	将对象渲染到LaTeX表格环境表。
DataFrame.to_stata（self，fname [，…]）	将DataFrame对象导出为Stata dta格式。
DataFrame.to_msgpack（self [，path_or_buf，…]）	（已弃用）使用msgpack格式将对象序列化为输入文件路径。
DataFrame.to_gbq（self，destination_table [，…]）	将DataFrame写入Google BigQuery表。
DataFrame.to_records（self [，索引，…]）	将DataFrame转换为NumPy记录数组。
DataFrame.to_sparse（self [，fill_value，种类]）	（不推荐）转换为SparseDataFrame。
DataFrame.to_dense（self）	（不推荐使用）返回Series / DataFrame的密集表示形式（与稀疏相反）。
DataFrame.to_string（self [，buf，列，…]）	将DataFrame渲染到控制台友好的表格输出。
DataFrame.to_clipboard（self [，excel，sep]）	将对象复制到系统剪贴板。
DataFrame.style	返回一个Styler对象的属性，该对象包含用于构建DataFrame的样式化HTML表示形式的方法。
稀疏
SparseDataFrame.to_coo（self）	返回框架的内容作为稀疏的SciPy COO矩阵。