后缀树c语言算法,优化：Python,Perl和C后缀树库

雲花糖是我的榮耀

于 2021-05-23 14:20:54 发布

阅读量126

点赞数

文章标签：后缀树c语言算法

我有大约3,500个由单行字符串组成的文件.文件大小不一(从大约200b到1mb).我正在尝试将每个文件与其他文件进行比较,并找到两个文件之间长度为20个字符的公共子序列.请注意,子序列仅在每次比较期间在两个文件之间是通用的,并且在所有文件中不常见.

我已经解决了这个问题,因为我不是专家,所以我最终得到了一些临时解决方案.我使用itertools.combinations在Python中构建一个列表,最终得到大约6,239,278个组合.然后我将这两个文件一次传递给一个Perl脚本,该脚本作为一个用C语言编写的后缀树库的包装器,称为libstree.我试图避免使用这种类型的解决方案,但Python中唯一可比的C后缀树包装器遭受了a memory leak.

所以这是我的问题.我已经计时了,在我的机器上,该解决方案在25秒内处理了大约500次比较.这意味着,完成任务需要大约3天的连续处理.然后我必须再做一遍看看25个字符而不是20个.请注意我已经离开了我的舒适区并且不是一个非常好的程序员,所以我确信有一个更优雅的方式去做这个.我以为我会在这里问它并生成我的代码,看看是否有人建议我如何更快地完成这项任务.

Python代码：

from itertools import combinations

import glob,subprocess

glist = glob.glob("Data/*.g")

i = 0

for a,b in combinations(glist,2):

i += 1

p = subprocess.Popen(["perl","suffix_tree.pl",a,b,"20"],shell=False,stdout=subprocess.PIPE)

p = p.stdout.read()

a = a.split("/")

b = b.split("/")

a = a[1].split(".")

b = b[1].split(".")

print str(i) + ":" + str(a[0]) + " --- " + str(b[0])

if p != "" and len(p) == 20:

with open("tmp.list","a") as openf:

openf.write(a[0] + " " + b[0] + "\n")

Perl代码：

use strict;

use Tree::Suffix;

open FILE,"

雲花糖是我的榮耀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
后缀树c语言算法,优化：Python,Perl和C后缀树库

我有大约3,500个由单行字符串组成的文件.文件大小不一(从大约200b到1mb).我正在尝试将每个文件与其他文件进行比较,并找到两个文件之间长度为20个字符的公共子序列.请注意,子序列仅在每次比较期间在两个文件之间是通用的,并且在所有文件中不常见.我已经解决了这个问题,因为我不是专家,所以我最终得到了一些临时解决方案.我使用itertools.combinations在Python中构建一个列表...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。