![](https://img-blog.csdnimg.cn/2019092715111047.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Pandas修炼
文章平均质量分 95
pandas处理数据的工作总结
一只红花猪
1. 多年面试官经验、欢迎咨询各类简历修改、面试经验、求职准备;
2. 混迹多个大厂搜索、推荐、广告、内容、数据挖掘、数据分析等多个岗位工作,目前大模型算法驯化师;
展开
-
【Pandas驯化-17】一文搞懂Pandas如何优雅的连接mysql函数to_sql技巧
在数据分析和数据科学项目中,经常需要将数据在不同的存储介质之间进行迁移。Pandas 提供了非常方便的功能,可以轻松地将 DataFrame 数据写入到 MySQL 数据库中。这通常通过 SQLAlchemy 这个 Python SQL 工具包来实现,它为数据库提供了一个优雅的接口。本文介绍了如何使用 Pandas 和 SQLAlchemy 将 DataFrame 数据写入 MySQL 数据库。通过创建数据库连接引擎和使用 to_sql 方法,我们可以方便地将数据导入到数据库中。原创 2024-06-26 10:35:40 · 860 阅读 · 0 评论 -
【Pandas驯化-16】一文搞懂Pandas中高性能query、eval函数技巧
pandas进行列的查询,经常会常使用df[条件]的方式,但是这种写法的性能不是很高, pandas基于Numexpr实现了两个高性能的函数,用于数据查询过滤query()和数据列值修改与增加新列eval(),这两个函数通过传入列名str的方式进行操作::Pandas 提供了 query 和 eval 函数,这两个函数在处理数据时非常有用。query 函数允许你用字符串表达式来筛选数据,而 eval 函数可以计算字符串表达式的值。这两个函数可以大大简化数据处理的代码。原创 2024-06-25 10:13:07 · 1164 阅读 · 0 评论 -
【Pandas驯化-15】Pandas中几个特征工程函get_dummies、factorize、diff、rank技巧
有时在进行特征工程时,当某列的值的种类不是大于20且不同的值的label差异性比较大时,像LR算法则一定需要将其进行one-hot编码,即使使用像xgb/gbm这样的算法,进行one-hot编码也会在拟合效果上有想不到的提升,当然如果对算法的速度有特别的要求,则需要去折中选择。这个函数主要对数据进行编码操作的,将类别数据转换为相关数值型数据本文介绍了 Pandas 中的四个特征工程函数:get_dummies、factorize、diff 和 rank。原创 2024-06-24 14:13:26 · 463 阅读 · 0 评论 -
【Pandas驯化-14】一文搞懂Pandas中的时间处理函数date_range、resample、shift技巧
如果要对时间序列相关的数据进行数据分析与挖掘,而时间做为一种特殊的数据格式,不同于字符串,整型的数据格式,但是它们之间又是有一定的联系,在介绍pandas时间处理的方法之前,首先介绍一下关于python的时间处理的相关知识以及常用的包:首先对于时间维度信息在进行数据分析以及特征工程的时候经常挖掘分析的时间维度信息如下:年、月、日、是否周末、是否节假日、一年中的第几周、一周中的第几天、距离节假日的时间距离、年月日结合相关业务操作的时间范围、针对业务特征日期的处理。原创 2024-06-23 16:28:21 · 750 阅读 · 0 评论 -
【Pandas驯化-13】一文搞懂Pandas中的文件合并merge、concat函数技巧
在数据分析中,经常需要将多个数据集合并为一个统一的数据结构以进行进一步的分析。Pandas 提供了 merge 和 concat 两个函数来实现数据的合并操作。merge 用于根据一个或多个键将不同的数据集按照一定的规则进行合并,类似于 SQL 中的 JOIN 操作。而 concat 用于将多个数据集沿某个轴进行合并,不涉及键的匹配。。本文介绍了 Pandas 中的两个数据合并函数 merge 和 concat 的使用方法。原创 2024-06-22 10:47:06 · 956 阅读 · 0 评论 -
【Pandas驯化-11】一文搞懂Pandas中的分组函数groupby与qcut、fillna使用
对于分箱操作,在处理连续数据的特征工程时经常会用到,特别是在用户评分模型里面用的贼多,但是使用最优分箱进行数值离散化比较多。在数据分析中,经常需要根据某些特征将数据分组,并在每个组内执行计算或分析。Pandas 提供了 groupby 功能来实现这一点。此外,qcut 可用于将连续数据分箱为离散区间,而 fillna 用于填充数据中的缺失值。本文介绍了如何使用 Pandas 对数值型数据进行分箱,并在每个箱子中统计另一列的统计特征。原创 2024-06-22 10:46:00 · 784 阅读 · 0 评论 -
【Pandas驯化-12】一文搞懂Pandas中的分组函数groupby与apply、lambda使用
如果要说上面介绍的一些pandas的基本操作大部分execl厉害的人也能实现,个人感觉pandas处理数据贼有魅力的地方在于它的聚合分组统计操作,这也是在数据建模中特征提取用的最多的地方,在特征提取时,经常需要提取样本分组的统计信息特征。只能对一列数据进行操作,且不能和groupby进行结合操作。原创 2024-06-21 10:21:49 · 960 阅读 · 0 评论 -
【Pandas驯化-10】一文搞懂Pandas中一列混合多种数据类型to_numeric、select_dtypes处理
在实际工作中,由于数据采集的失误或者人工处理的时候不当,会造成原始数据类型经常会遇到一列数值型数据中,混杂一些字符串类型的数据,当我们要对这列数据进行统计运算时,就会报相应的错误,当遇到这样问题的时候,如果我们是在进行数据分析,需要找出具体是哪些行存在这样的问题,从而去修改原始数据的采集,而在进行数据建模或者特征提取时,需要对其进行删除或者采用均值数据进行修改,具体的骚操作方法如下:函数尝试将输入的数据转换为数值类型。当。原创 2024-06-20 16:03:52 · 723 阅读 · 0 评论 -
【Pandas驯化-08】一文搞懂Dataframe中一行变多行explode、split中的expand用法
在Pandas中,explode是一个用于将序列值分解成多行的函数。当DataFrame中的某一列包含序列(如列表或数组),而你希望将这些序列中的每个元素转换为DataFrame的一行时,explode就非常有用。真实的数据分析工作中,通过用到explode是和str中的split结合起来用,因此,真实数据中,组成的list大多数为字符串格式,因此,通常需要将字符串转换成列表,然后在将使用explode函数将一列数据转换成多列数据。原创 2024-06-19 13:34:05 · 958 阅读 · 0 评论 -
【Pandas驯化-07】DataFrame中无所不能的pivot函数
在数据处理中,经常需要对数据进行重塑以适应不同的分析需求。Pandas 提供了 pivot 函数,允许用户重构长格式(long format)的数据为宽格式(wide format),通过指定索引(index)、列(columns)和值(values),可以快速地创建一个新的派生表,使得数据的展示更加直观。pivot 函数是 Pandas 中一个非常有用的工具,它可以帮助我们将长格式的数据转换为宽格式,使得数据的展示更加直观,便于分析。原创 2024-06-18 11:38:36 · 906 阅读 · 0 评论 -
【Pandas驯化-06】一文搞懂Dataframe中的索引stack、unstack问题
在Pandas中,DataFrame 是一种非常灵活的数据结构,它允许我们以表格的形式存储和操作数据。stack 和 unstack 是两个用于操作多级索引(multi-index,也称为层次化索引)的函数,它们可以帮助我们重塑数据的形状,以适应不同的分析需求。原创 2024-06-18 11:38:04 · 1182 阅读 · 0 评论 -
【Pandas驯化-05】Pandas中增、删、查、改、dropna、sort_values使用总结
对于结构化的数据Dataframe,我们通常归纳为多少行,多少列,在通过Pandas对Dataframe进行数据分析、处理过程中,通过的操作需要对数据进行增、删、修、改、判断缺失值、以及排序、本文对pandas中的上述操作进行实践,总结实际工作中常用到的函数用法和技巧。本文介绍了 Pandas 中删除空值和满足特定条件的数据的方法。这些方法在数据清洗过程中非常关键,有助于提高数据分析的准确性和效率。通过实际的代码示例,我们可以看到这些操作是如何应用于实际的数据集上的。原创 2024-06-17 09:13:12 · 577 阅读 · 0 评论 -
【Pandas驯化-04】Pandas中drop_duplicates、describe、翻转操作
本文介绍了pands中的去重哈数drop_duplicates、行列翻转的技巧和相关的操作原创 2024-06-16 09:56:41 · 921 阅读 · 0 评论 -
【Pandas驯化-03】Pandas中常用统计函数mean、count、std、info使用
本文介绍了pandas中常用的基础统计函数的使用,主要为求均值、方差、个数、空值、describe、info等分布统计信息的用法和技巧原创 2024-06-16 09:55:28 · 852 阅读 · 0 评论 -
【Pandas驯化-02】pd.read_csv读取中文出现error解决方法
pandas中read_csv读取文件出现的各类问题汇总解决方法!原创 2024-06-15 20:58:52 · 869 阅读 · 0 评论 -
【Pandas驯化-01】一文介绍 Pandas中的Dataframe和Series 区别
pandas中基础数据结构类型dataframe和series的介绍和使用!原创 2024-06-15 20:56:11 · 767 阅读 · 0 评论