DataFrame条件筛选完胜for+if，提速50倍

最新推荐文章于 2024-08-19 03:18:07 发布

geniusle201

最新推荐文章于 2024-08-19 03:18:07 发布

阅读量1.5w

点赞数 8

分类专栏： python数据分析处理文章标签： python DataFrame 优化条件筛选 csv

本文链接：https://blog.csdn.net/geniusle201/article/details/78351639

版权

多个csv文件匹配筛选优化小技巧，提速50倍

任务描述：处理users(百万级)，shops(万级)这2个csv文件，根据shops里的userid找到相应user，计算匹配的shop和user经纬度差值，即(shop.lon-user.lon，shop.lat-user.lat)。考虑将其转化为dataframe，方便处理，即得到df_shops，df_users。

优化前思路：

    ...
    for index in df_shops.index:
        lon1=df_shops.iloc[index,2]
        lat1=df_shops.iloc[index,3]
        for index2 in df_users.index:
            if(df_shops.iloc

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

geniusle201

关注关注

8
点赞
踩
49

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【python】给dataframe.apply加加速

u012720552的专栏

09-30

1558

1. pandas提速的方法回顾如果想要让pandas提速，有两个方法 1. 向量化向量化是最优的方法，具体用法参考文章：还在抱怨pandas运行速度慢？这几个方法会颠覆你的看法。举个例子，我们将向量化定义为使用Numpy表示整个数组而不是元素的计算。下面有两个数组： array_1 = np.array([1,2,3,4,5]) array_2 = np.array([6,7,8,9,10]) 我们希望创建一个新数组，该数组是两个数组的总和，结果应该是： result = [7,9,11,13,1

pandas dataframe使用query进行多个条件快速筛选

呆萌的代Ma

10-11

9579

对于dataframe格式的数据，使用多个筛选条件筛选时，建议使用query()：使用query关键词不会产生新的空间开销，可以更加节省内存在小样本下效率低于传统方法(比如q1_2)，但是在大样本下效率高于传统方法案例生成数据： import pandas as pd import numpy as np df = pd.DataFrame(np.random.randint(0, 10, size=(1000, 3)), columns=['a', 'b', 'c']) 筛选条件：a列 &

2 条评论您还未登录，请先登录后发表或查看评论

python将dataframe多条件筛选

最新发布

weixin_30456235的博客

08-19

113

我整理的一些关于【数据】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/eDOcp1使用 Python 进行 DataFrame 多条件筛选指南在数据分析的过程中，我们经常需要对数据进行筛选，以便只提取我们关心的部分。Pandas 是一个非常强大的数据处理库，它提供了丰富的...

提高多层行索引的 DataFrame 的搜索效率

domodo2012的博客

12-04

427

col one two a t 0 u 1 v 2 w 3 对于以上结构的两层行索引 DataFrame，采用 data.loc[(c, u), col] 取数据时，一般情况下会触发如下警告： PerformanceWarning: indexing past lexsort depth may impact performance. 这是因为索引没有排序，而是否排序对 DataFrame 的检索效率有较大影...

Python:List\Numpy\DataFrame大规模查找效率(同时查询多个元素的索引)

读万卷书行万里路

05-18

2103

问题描述：有一个包含大约321w个元素的List型变量A，一个包含200个元素的List型变量B。现在需要求出B中各元素在变量A中的索引，若B中的某个元素没有出现在A中，则不返回。这里主要对比当修改A变量的类型时查找花费的时间。

DataFrame，数据列筛选代替遍历每一行数据去判断，大大提高数据过滤速度

PengDQ12的博客

10-26

421

运行时间 900s+，时间太长了，查资料说用pandas2.0之后的，可以用pyarrow来提高速率，但是2.0很多方法不适用了，影响到之前的一些脚本运行，后来仔细想了想，是遍历那里的时间复杂度太大了，提取出结果的数据，大概要遍历10亿次，决定从这里的循环逻辑做改善。在一张接近45M的csv表格，63.7w行数据，从中提取符合时间段范围的（每天20到第二天9点的数据），并且信号数值小于一定范围的数据，接着按每天为一份，去重统计和提取这些数据的原始详细信息。pandas1.3.5

apply筛选 pandas_pandas dataframe 过滤——apply最灵活！！！

weixin_39640646的博客

12-21

363

按照某特定string字段长度过滤：import pandas as pddf = pd.read_csv('filex.csv')df['A'] = df['A'].astype('str')df['B'] = df['B'].astype('str')mask = (df['A'].str.len() == 10) & (df['B'].str.len() == 10)df = df....

Python Pandas中Dataframe对象，如何根据列值筛选满足条件的行，并且获得行的索引值

12-22

Python Pandas中Dataframe对象，如何根据列值筛选满足条件的行，并且返回列的索引值，我们举栗子说明一下： 1.先创建一个dataframe变量df： df = pd.DataFrame(np.arange(16).reshape(4,4), #index = pd.date_...

dataframe 条件取非_DataFrame筛选数据与条件判断

weixin_39922476的博客

12-20

1716

DataFrame筛选数据与条件判断import numpy as npimport pandas as pd#读取数据df=pd.read_csv("tips.csv")df.head()'''total_bill tip sex smoker day time size0 16.99 1.01 Female No Sun Dinner 21 10.34 1...

python dataframe数据筛选_pandas系列之DataFrame 行列数据筛选实例

weixin_39631632的博客

11-29

1535

一、对DataFrame的认知DataFrame的本质是行(index)列(column)索引+多列数据。为了简化理解，我们不妨换个思路…现实中，为了简化对一件事物的描述，我们会选择几个特征。例如，从（性别、身高、学历、职业、爱好..）等角度去刻画一个人，这些“角度”即为“特征”。其中，不同的行表示不同的记录；列代表特征，不同记录因各个特征之间的差异而不同。DataFrame默认索引是序号（0，1...

dataframe筛选列名_【DataFrame】查看与筛选数据

weixin_35256987的博客

02-23

1943

1 查看列的数据类型使用 dtypes 方法可以查看各列的数据类型，比如说之前的 df3。>>> dic1 = {'name': ['小明', '小红', '狗蛋', '铁柱'], 'age': [17, 20, 5, 40], 'gender': ['男', '女', '女', '男']}>>> df3 = pd.DataFrame(dic1)>>...

pandas dataframe如何快速进行数据筛选

达达的博客

04-01

1818

目录数据初始化选择某一行通过loc选择某一行通过iloc选择某一行选择某一列最简单的方法选择某一列通过iloc选则某一列通过loc选择某一列选择某一行的某几列或某一列的某一行选择某一行的某几列通过行列自由组合去选择数据选择某几列或者某几行选择某几列选择某几行获取单个标量值通过iat去获取通过at去获取数据初始化 import pandas as pd import numpy as np a=np.array([['北京','北方','一线','非沿海'],['杭州','南方','二线','非沿海'],[

【转载】使用Pandas对数据进行筛选和排序

热门推荐

aiqituo9030的博客

11-02

1万+

使用Pandas对数据进行筛选和排序本文转载自：蓝鲸的网站分析笔记原文链接：使用Pandas对数据进行筛选和排序目录： sort() 对单列数据进行排序对多列数据进行排序获取金额最小前10项获取金额最大前10项 Loc 单列数据筛选并排序多列数据筛选并排序按筛选条件求和(sumi...

DataFrame通过修改索引提升查找速度

读万卷书行万里路

01-15

2698

下面以MovieLens-100K(可以在网上自己下载为例)来展示不同语法的查询效果。 import os import pandas as pd import time import random data=[] with open(os.path.join('ml_data','u.data'),'r') as r_data: for line in r_data: ...

从 0 基础到 10w 册数据分析书籍的畅销书作家

weixin_38753422的博客

11-25

171

python dataframe索引遍历是否更快_python-遍历DataFrame并跟踪一定的序列持续时间

weixin_39726873的博客

12-19

591

我想弄清楚负值出现的频率和负价出现的时间.例子dfd = {'value': [1,2,-3,-4,-5,6,7,8,-9,-10], 'period':[1,2,3,4,5,6,7,8,10]}df = pd.DataFrame(data=d)我检查了哪些行具有负值. df [‘value’]< 0我以为我可以只遍历每一行,为出现负值时保留一个计数器,并且可以将该行移至另一个df,因为我想...

对比Dataframe与原生list的速度,Dataframe太慢了！！！

wangwox的博客

02-08

691

Dataframe太慢了！

Pandas之DataFrame---行与列的查询与匹配

u014526549的博客

06-23

4151

网上有很多教程已经过期了，比如：ix函数已经被废除,点我看官网文档，下面的内容备注了完整的运行示例。如果这里阅读体验不佳，我另外上传一份HTML在私人播客；以及jupyter notebook文件供大家练习环境说明： Python: 3.8.8 Pandas: 1.2.4 NumPy: 1.20.1 import numpy as np import pandas as pd df=pd.DataFrame(np.arange(12).reshape((3,4)),index=['one','tw

dataframe 条件筛选

12-06

在Python中，pandas库提供了DataFrame数据结构，可以用来处理和分析数据。DataFrame中的数据可以根据条件进行筛选，以得到符合条件的数据子集。下面是一些常用的条件筛选方法： 1. 使用布尔索引：可以使用布尔运算符（如>、<、==等）和逻辑运算符（如&、|、~等）来创建一个布尔索引，然后将其传递给DataFrame的loc[]方法，以选择符合条件的行。例如，假设有一个DataFrame df，其中有一列名为age，我们想要选择age大于等于18的行，可以使用以下代码： ``` df.loc[df['age'] >= 18] ``` 2. 使用query()方法：query()方法可以使用类似SQL的语法来筛选数据。例如，假设有一个DataFrame df，其中有两列名为age和gender，我们想要选择age大于等于18且gender为女性的行，可以使用以下代码： ``` df.query('age >= 18 and gender == "female"') ``` 3. 使用isin()方法：isin()方法可以用来选择某一列中包含特定值的行。例如，假设有一个DataFrame df，其中有一列名为gender，我们想要选择gender为女性或男性的行，可以使用以下代码： ``` df[df['gender'].isin(['female', 'male'])] ``` 希望这些方法可以帮助你进行DataFrame的条件筛选。