python字符串查找重复_python – 查找字符串中所有重复的子字符串以及它们出现的频率...

本文探讨了如何使用Python的后缀树库查找字符串中重复的子串并计算其频率。作者遇到的问题是后缀树方法在处理特定情况时导致结果错误,并提出了一个BFS遍历后缀树的解决方案,以获取正确的子串及其出现次数。此外,还讨论了如何过滤掉特定条件下不符合要求的子串,以及如何处理冗余匹配。
摘要由CSDN通过智能技术生成

问题:

我需要符合以下条件的所有字符序列:

>字符序列必须多次出现((LE,1)因此无效).

>字符序列必须长于一个字符((M,2)因此无效).

>字符序列不能是存在相同次数的较长现有序列的一部分(如果(LIO,2)存在,则(LI,2)无效).

因此,如果输入字符串是:KAKAMNENENELIOLELIONEM $

输出将是:

(KA, 2)

(NE, 4)

(LIO, 2)

它还需要快速,它应该能够在合理的时间内解决1000个字符长的字符串.

我尝试过的:

从后缀树获取分支数量:

编辑this后缀树 – 创建librabry(Python-Suffix-Tree),我制作了一个程序,给出了一些错误的结果.

我将此函数添加到suffix_tree.py中的SuffixTree类:

def get_repeated_substrings(self):

curr_index = self.N

values = self.edges.values()

values = sorted(values, key=lambda x: x.dest_node_index)

data = [] # index = edge.dest_node_index - 1

for edge in values:

if edge.source_node_index == -1:

continue

top = min(curr_index, edge.last_char_index)

data.append([edge

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值