python dataframe 模糊匹配_在两列python dataframe 之间的范围内搜索特定值

最新推荐文章于 2023-07-27 15:00:45 发布

weixin_39779004

最新推荐文章于 2023-07-27 15:00:45 发布

阅读量1.4k

点赞数

文章标签： python dataframe 模糊匹配

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39779004/article/details/111864624

版权

本文介绍了如何在两个Python DataFrame列之间进行模糊匹配，特别是在寻找特定值时。通过创建IntervalIndex，可以实现对Mileage范围的高效搜索。详细步骤包括读取CSV文件，构造IntervalIndex，利用get_indexer找到匹配项，然后将得分分配回DataFrame，最后将结果保存到新的CSV文件。这种方法适用于处理大量数据，并且适用于pandas v0.20及更高版本。

摘要由CSDN通过智能技术生成

As of writing this, the current stable release is v0.21.

df0 = pd.read_csv('file1.csv')

df1 = pd.read_csv('file2.csv')

df0

Car Mileage

0 A 8

1 B 6

2 C 10

df1

Score Mileage(Min) Mileage(Max)

0 1 1 3

1 2 4 6

2 3 7 9

3 4 10 12

4 5 13 15

要查找分数,请通过调用IntervalIndex.from_tuples使用pd.IntervalIndex.这应该非常快-

v = df1.loc[:, 'Mileage(Min)':'Mileage(Max)'].apply(tuple, 1).tolist()

idx = pd.IntervalIndex.from_tuples(v, closed='both') # you can also use `from_arrays`

df0['Score'] = df1.iloc[idx.get_indexer(df0.Mileage.values), 'Score'].values

df0

Car Mileage Score

0 A 8 3

1 B 6 2

2 C 10 4

here概述了其他创建IntervalIndex的方法.

df0.to_csv('file3.csv')

这是我在这里所做的概述.

>首先,读入CSV文件

>使用pd.IntervalIndex构建间隔索引树.因此,搜索现在的复杂度是对数的.

>使用idx.get_indexer查找树中每个值的索引

>使用索引在df1中找到得分值,并将其分配回df0.请注意,我称.values,否则,分配回来时这些值将不对齐.

>将结果写回CSV

请注意,IntervalIndex是v0.20中的新功能,因此,如果您使用的是较旧的版本,请确保使用

pip install --upgrade pandas

weixin_39779004

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python dataframe 模糊匹配_在两列python dataframe 之间的范围内搜索特定值

As of writing this, the current stable release is v0.21.df0 = pd.read_csv('file1.csv')df1 = pd.read_csv('file2.csv')df0Car Mileage0 A 81 B 62 C 10df1Score Mileage(Min) Mil...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。