Pandas 库最常用方法、函数集合

Python数据挖掘

于 2023-12-10 23:18:11 发布

阅读量985

点赞数 18

分类专栏： python 机器学习数据分析及可视化文章标签： pandas python 机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34160248/article/details/134916668

版权

python 同时被 3 个专栏收录

501 篇文章 279 订阅

订阅专栏

152 篇文章 85 订阅

订阅专栏

数据分析及可视化

80 篇文章 8 订阅

订阅专栏

Pandas 是Python数据分析处理的核心第三方库，它使用二维数组形式，类似Excel表格，并封装了很多实用的函数方法，让你可以轻松地对数据集进行各种操作。

技术群的小伙伴自动发起，一起梳理了 Pandas 中常用的函数和方法，今天分享给大家，方便大家查询使用。

如果你也想加入学Python，见文末。

读取写入

read_csv：读取CSV文件
to_csv：导出CSV文件
read_excel：读取Excel文件
to_excel：导出Excel文件
read_json：读取Json文件
to_json：导出Json文件
read_html：读取网页中HTML表格数据
to_html：导出网页HTML表格
read_clipboard：读取剪切板数据
to_clipboard：导出数据到剪切板
to_latex：导出数据为latex格式
read_sas：读取sas格式数据（一种统计分析软件数据格式）
read_spss：读取spss格式数据（一种统计分析软件数据格式）
read_stata：读取stata格式数据（一种统计分析软件数据格式）
read_sql：读取sql查询的数据（需要连接数据库），输出dataframe格式
to_sql：向数据库写入dataframe格式数据

连接合并重塑

merge：根据指定键关联连接多个dataframe，类似sql中的join
concat：合并多个dataframe，类似sql中的union
pivot：按照指定的行列重塑表格
pivot_table：数据透视表，类似excel中的透视表
cut：将一组数据分割成离散的区间，适合将数值进行分类
qcut：和cut作用一样，不过它是将数值等间距分割
crosstab：创建交叉表，用于计算两个或多个因子之间的频率
join：通过索引合并两个dataframe
stack: 将数据框的列“堆叠”为一个层次化的Series
unstack: 将层次化的Series转换回数据框形式
append: 将一行或多行数据追加到数据框的末尾

分组聚合转换过滤

groupby：按照指定的列或多个列对数据进行分组
agg：对每个分组应用自定义的聚合函数
transform：对每个分组应用转换函数，返回与原始数据形状相同的结果
rank：计算元素在每个分组中的排名
filter：根据分组的某些属性筛选数据
sum：计算分组的总和
mean：计算分组的平均值
median：计算分组的中位数
min和 max：计算分组的最小值和最大值
count：计算分组中非NA值的数量
size：计算分组的大小
std和 var：计算分组的标准差和方差
describe：生成分组的描述性统计摘要
first和 last：获取分组中的第一个和最后一个元素
nunique：计算分组中唯一值的数量
cumsum、cummin、cummax、cumprod：计算分组的累积和、最小值、最大值、累积乘积

数据清洗

dropna: 丢弃包含缺失值的行或列
fillna: 填充或替换缺失值
interpolate: 对缺失值进行插值
duplicated: 标记重复的行
drop_duplicates: 删除重复的行
str.strip: 去除字符串两端的空白字符
str.lower和 str.upper: 将字符串转换为小写或大写
str.replace: 替换字符串中的特定字符
astype: 将一列的数据类型转换为指定类型
sort_values: 对数据框按照指定列进行排序
rename: 对列或行进行重命名
drop: 删除指定的列或行

数据可视化

pandas.DataFrame.plot.area：绘制堆积图
pandas.DataFrame.plot.bar：绘制柱状图
pandas.DataFrame.plot.barh：绘制水平条形图
pandas.DataFrame.plot.box：绘制箱线图
pandas.DataFrame.plot.density：绘制核密度估计图
pandas.DataFrame.plot.hexbin：绘制六边形分箱图
pandas.DataFrame.plot.hist：绘制直方图
pandas.DataFrame.plot.line：绘制线型图
pandas.DataFrame.plot.pie：绘制饼图
pandas.DataFrame.plot.scatter：绘制散点图
pandas.plotting.andrews_curves：绘制安德鲁曲线，用于可视化多变量数据
pandas.plotting.autocorrelation_plot：绘制时间序列自相关图
pandas.plotting.bootstrap_plot：用于评估统计数据的不确定性,例如均值,中位数,中间范围等
pandas.plotting.lag_plot：绘制时滞图，用于检测时间序列数据中的模式、趋势和季节性
pandas.plotting.parallel_coordinates：绘制平行坐标图，用于展示具有多个特征的数据集中各个样本之间的关系
pandas.plotting.scatter_matrix：绘制散点矩阵图
pandas.plotting.table：绘制表格形式可视化图

日期时间

to_datetime: 将输入转换为Datetime类型
date_range: 生成日期范围
to_timedelta: 将输入转换为Timedelta类型
timedelta_range: 生成时间间隔范围
shift: 沿着时间轴将数据移动
resample: 对时间序列进行重新采样
asfreq: 将时间序列转换为指定的频率
cut: 将连续数据划分为离散的箱
period_range: 生成周期范围
infer_freq: 推断时间序列的频率
tz_localize: 设置时区
tz_convert: 转换时区
dt: 用于访问Datetime中的属性
day_name, month_name: 获取日期的星期几和月份的名称
total_seconds: 计算时间间隔的总秒数
rolling: 用于滚动窗口的操作
expanding: 用于展开窗口的操作
at_time, between_time: 在特定时间进行选择
truncate: 截断时间序列

技术交流与资料获取

技术要学会交流、分享，不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

好的文章离不开粉丝的分享、推荐，资料干货、资料分享、数据、技术交流提升，均可加交流群获取，群友已超过2000人，添加时最好的备注方式为：来源+兴趣方向，方便找到志同道合的朋友。

技术交流、代码、数据获取方式如下

方式①、添加微信号：dkl88194，备注：来自CSDN + 技术交流
方式②、微信搜索公众号：Python学习与数据挖掘，后台回复：技术交流

资料1
在这里插入图片描述
资料2

我们打造了《100个超强算法模型》，特点：从0到1轻松学习，原理、代码、案例应有尽有，所有的算法模型都是按照这样的节奏进行表述，所以是一套完完整整的案例库。

很多初学者是有这么一个痛点，就是案例，案例的完整性直接影响同学的兴致。因此，我整理了 100个最常见的算法模型，在你的学习路上助推一把！

在这里插入图片描述

Python数据挖掘

关注

18
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
Pandas 库最常用方法、函数集合

Pandas 是Python数据分析处理的核心第三方库，它使用二维数组形式，类似Excel表格，并封装了很多实用的函数方法，让你可以轻松地对数据集进行各种操作。技术群的小伙伴自动发起，一起梳理了 Pandas 中常用的函数和方法，今天分享给大家，方便大家查询使用。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。