kmp算法时间复杂度难以理解之处的一些胡诌

最新推荐文章于 2024-08-13 14:56:59 发布

hv_skewer

最新推荐文章于 2024-08-13 14:56:59 发布

阅读量13

点赞数

文章标签：算法

原文链接：https://mp.weixin.qq.com/s?__biz=Mzk0ODY5NTc0NA==&mid=2247483692&idx=1&sn=043216d2348c28542245640959c6a8c8&chksm=c362e683f4156f9552e567e39636fc3942554963938d2e3fe07589e2c879ab7ba081015915ec&token=721034225&lang=zh_CN#rd

版权

（转载于笨人的微信公众号）
这是笨人在研究kmp算法时间复杂度时想到的一种（非常乱来非常没有根据）的理解方法，大家能懂个大概意思就好。理解本文需要一些热学方面对于信息熵的知识，以及对kmp算法的基础认识。

Kmp算法是一种匹配字符串的方法，目的是通过内蕴于需要匹配的子串P自身的特征，快速寻找其在主串S中的位置。

KMP算法的时间复杂度分为两部分，第一部分是构建子串的特征向量（或者叫next数组，具体好像也有很多种说法傻傻分不清）的时间复杂度，另外一部分是进行匹配时的时间复杂度。具体进行细分，构建子串的时间复杂度=单方向遍历每个字母*对每个字母进行匹配的回溯；进行匹配的时间复杂度=遍历S串中的每个字母（每个字母只遍历一次）*对每个字母进行匹配回溯。

显然，单方向遍历的时间复杂度是正比于串长度M与N的。KMP算法整体的时间复杂度就是O（m+n）。关键在于，为什么回溯的时间复杂度是随机常量类型（瞎诌的词，也就是O（1）），或者说，回溯的次数与我开始回溯的位置没有关系（无论我从多远开始回溯）。

我们把视角回到热学。在计算微观熵时有一种概念叫做“微观状态数”，或者“热力学概率”，表示热力学系统中的所有可能微观状态。令其为W，则熵正比于lnW，信息缺失正比于-lnW。

下面我们取next数组中的n[k]作为研究对象，n[k]的值必然小于k，但是具体是几我们却不知道，那么这个值就是我们的随机变量，有k-1种微观状态数。在不知道具体是几时，信息熵为ln（k），如果我们已经确定了这个值，则其信息正比于ln（k）。

在回溯时（首先就构建next数组中的回溯说），每一步向前的回溯（k=n[k-1]）,都会将k进行一个更新，而k被更新的位置的n[k]是一个已知的值，从中获得ln(n[k])的信息。

我们的目的是要得到回溯开始位置i0的next值，需要获取ln（i0）的信息，而我们每次单步回溯可以获得ln（n[k]）的信息。对于完全随机的情况，n[k]/i0的平均值是1/2，则信息差δI=ln(i0)-ln(n[k]),而这个δI对应的应该是一个常量（ln(2)）。那么常量步的回溯是很容易把这部分信息补全的（随随便便再来一个k>2就够了）

或者说，对于n[k-1]/k是一个固定比例η，单次回溯中的步数最大正比于ln（η），但总获得信息则正比于