发现Python的源代码中关于字符串fastsearch算法的一个笔误！

最新推荐文章于 2022-11-21 23:53:03 发布

AI风

最新推荐文章于 2022-11-21 23:53:03 发布

阅读量1.4k

点赞数

文章标签：算法 python character search table path

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/studying/article/details/1426142

版权

今天继续看Python源代码中的PyStringObject结构，发现了它的一个子字符串的查找算法很有趣，研究了一把，这个算法在这里叫做fastsearch。真的不错，它在进行字符跳的时候，是m长度的跳，而不是一个个的跳。其实，算法还是很简单的，仔细分析一下就可以得出了。在分析算法的同时，我发现这个算法一点小小的瑕疵，现在叙述如下：

#define FAST_COUNT 0

#define FAST_SEARCH 1

Py_LOCAL_INLINE( Py_ssize_t)

fastsearch( const STRINGLIB_CHAR* s, Py_ssize_t n,

const STRINGLIB_CHAR* p, Py_ssize_t m,

int mode)

{

long mask;

Py_ssize_t skip, count = 0;

Py_ssize_t i, j, mlast, w;

w = n - m;

if (w < 0)

return -1;

/* look for special cases */

if (m <= 1) {

if (m <= 0)

return -1;

/* use special case for 1-character strings */

if (mode == FAST_COUNT) {

for (i = 0; i < n; i++)

if (s[i] == p[0])

count++;

return count;

} else {

for (i = 0; i < n; i++)

if (s[i] == p[0])

return i;

}

return -1;

}

mlast = m - 1;

/* create compressed boyer-moore delta 1 table */

//skip = mlast - 1; //???

skip = mlast; //Modified by deng_zf

/* process pattern[:-1] */

for (mask = i = 0; i < mlast; i++) {

mask |= (1 << (p[i] & 0x1F));

if (p[i] == p[mlast])

skip = mlast - i - 1;

}

/* process pattern[-1] outside the loop */

mask |= (1 << (p[mlast] & 0x1F));

for (i = 0; i <= w; i++) {

/* note: using mlast in the skip path slows things down on x86 */

if (s[i+m-1] == p[m-1]) {

/* candidate match */

for (j = 0; j < mlast; j++)

if (s[i+j] != p[j])

break;

if (j == mlast) {

/* got a match! */

if (mode != FAST_COUNT)

return i;

count++;

i = i + mlast;

continue;

}

/* miss: check if next character is part of pattern */

if (!(mask & (1 << (s[i+m] & 0x1F))))

i = i + m;

else

i = i + skip;

} else {

/* skip: check if next character is part of pattern */

if (!(mask & (1 << (s[i+m] & 0x1F))))

i = i + m;

}

}

if (mode != FAST_COUNT)

return -1;

return count;

}

有问题的和我修改后的语句我使用红色表示。我的解释如下：

假设：

原字符串为s，长度为n，例如s = “abdefg”，n = 6

子字符串为p，长度为m，例如p = “bcd”, m = 3

通过计算可知：

mlast = m – 1 = 2

skip = mlast – 1 = 1

好，现在让程序运行。程序在进入 for ( i = 0; i <= w; i++){}这个循环的第一遍中，会运行到后面的语句 i = i + skip。此时的i = 0, skip = 1，所以运行完成这条语句之后，i的值变成了1。然后，程序进入第二次循环，这时通过i++，i的值变成了2。也就是取字符串s中的子字符串“def”与 p进行比较，这显然是不成立的，这次比较必定要浪费的。

为什么呢？

因为 s中的第二个字符’d’在第一次比较中做为最后一个字符进行比较的，它和 p中的最后一个字符相同。而因为p的最后一个字符与前面的所有字符不同，所以在进行第二次比较中做为首字符的’d’肯定也不会和 p中的第一个字符相同的，所以这次比较肯定要失败的。

造成这种情况就是因为 skip在进行初始化的时候有问题，应该是skip = mlast，而不是skip = mlast – 1。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

AI风 CSDN认证博客专家 CSDN认证企业博客

码龄24年

33: 原创

25万+: 周排名

225万+: 总排名

14万+: 访问

: 等级

1735: 积分

19: 粉丝

13: 获赞

28: 评论

12: 收藏

私信

关注

热门文章

分类专栏

创意点子
移动开发 2篇
Google 10篇
Java 1篇
Chrome 2篇
.NET 3篇
Web开发 4篇
Windows 4篇
Complier
其它话题 4篇
转载文章 2篇
Android 1篇
AI 1篇
Python 1篇

最新评论

批处理文件中%~dp0是什么意思？
陶晨毅: 感谢非常有用
解决使用VC运行时库函数wprintf和wcount显示中文不正确的问题
qq_45713498: wcout之所以在不设置local时也能显示正确，是它歪打正着。 [code=cpp]wcout << char* //这是错误用法，默认local c下，简单的在每个wchar_t高字节零，低字节不变，以此实现向unicode16转换。显示时，在unicode16--mbcs。虽然显示正确，但是wcout流中存储的unicode16是错误的。(windows下)。unicode16原本只需要6个byte存储，它却用了12个byte [/code]
解决使用VC运行时库函数wprintf和wcount显示中文不正确的问题
qq_45713498: 上面的推理，在分析wprintf((wchar_t*)paName)语句时还像和结果是不一致这里应该说的是 pwname把。你上面这句代码，是没法显示正确的，即使local正确。
用.net dynamic实现对JSON文件的读写操作
小人物大梦想: 傻瓜写计算机能理解的代码。优秀的程序员写人类能读懂的代码。诚信互关，来自一个奋斗的老菜鸟
在批处理文件中遍历参数的一种实现
cnsealine: 这句是不有问题：应该是 if “%index%” == “” goto END

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。