python merge很费内存吗_python中大文件的高效mergepurge

最新推荐文章于 2024-03-15 21:36:54 发布

沃娃

最新推荐文章于 2024-03-15 21:36:54 发布

阅读量337

点赞数

文章标签： python merge很费内存吗

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_26765363/article/details/113962435

版权

我有两个文件要合并(left join)，以标识从左文件返回的记录与右文件中匹配的行。在

匹配键基于定义邮政数据的列的选择。我正在研究定义匹配阈值的方法，并为重复管理的唯一地址分配一个唯一的密钥。这也叫做householding，它意味着新的匹配不会减少处理过程。在

真正的挑战是对非常大的文件高效地运行主匹配循环。在

这个设置可能是map/reduce的一个很好的候选者，但是我现在想探索自包含的(比如“不太天真”)解决方案。在

有什么想法吗？谢谢。在import csv

import StringIO

from fuzzywuzzy import fuzz

cols1 = [ 1 , 3 , 4]

f1 = '''x1,x2,x3,x4,x5

the,quick,brown,fox,jumps

over,the,lazy,dogs,back,

bla,bla,bla,bla,bla'''

cols2 = [ 2 , 3 , 4]

f2 = '''x1,x2,x3,x4,x5

the,fast,brown,fox,jumps

over,many,snoozing,dogs,back,

the,prompt,fuchsia,fox,jumps

over,the,lazy,dogs,back,

bl,the,bl,bl,fox'''

def standardize( x , selection , field_lengths=None ):

y = ','.join([ x[selection[i]] for i in range(len(selection)) ])

return y

f1 = StringIO.StringIO(f1)

f2 = StringIO.StringIO(f2)

reader1 = csv.reader( f1 )

reader2 = csv.reader( f2 )

keys2 = []

for row in reader2:

# standardize and load key

keys2.append( standardize( row , cols2 ) )

for row in reader1:

# standardize and compare

key1 = standardize( row , cols1 )

# ------------------------------------------------

matches = [ fuzz.ratio( key1 , k) for k in keys2 ]

# ------------------------------------------------

max_match = max( matches )

max_pos = [i for i, x in enumerate(matches) if x == max_match ][0]

print key1 , "-->" , keys2[max_pos] , ':' , max_match

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python merge很费内存吗_python中大文件的高效mergepurge

我有两个文件要合并(left join)，以标识从左文件返回的记录与右文件中匹配的行。在匹配键基于定义邮政数据的列的选择。我正在研究定义匹配阈值的方法，并为重复管理的唯一地址分配一个唯一的密钥。这也叫做householding，它意味着新的匹配不会减少处理过程。在真正的挑战是对非常大的文件高效地运行主匹配循环。在这个设置可能是map/reduce的一个很好的候选者，但是我现在想探索自包含的(比如“...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。