自己之前写的匹配查找算法，综合评估都很不错（带注解）

最新推荐文章于 2024-08-12 16:46:12 发布

aliu134

最新推荐文章于 2024-08-12 16:46:12 发布

阅读量1.2k

点赞数

分类专栏：算法编程代码文章标签：搜索匹配算法

本文链接：https://blog.csdn.net/aliu134/article/details/80952557

版权

算法同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

编程

1 篇文章 0 订阅

订阅专栏

代码

1 篇文章 0 订阅

订阅专栏

本文介绍了一种不同于传统HASH算法的搜索匹配方法，该算法在空间占用上更为节省，且在特定场景下比KMP、BM、SUNDAY等常见算法表现更优。作者对算法进行了多次优化，修复了多个BUG并提升了性能。测试结果显示，算法在短字符串和特定长字符串查询中表现出色，但可能存在局限性。作者鼓励读者根据项目需求进一步改进和优化算法。

摘要由CSDN通过智能技术生成

不同于目前最流行的，有碰撞的，空间占用很高的HASH算法。对于普通程序而言，自然希望使用的空间能小点。当然，自己的这个算法自然要比市面上那些KMP，BM，SUNDAY等搜索匹配算法的综合效率要高些，在短串与其他长串的性能会有所提高，但也有它的限制与缺陷。在此，也希望各位能够把它进一步改进与优化，好根据项目的需求来找到或创造更好，更合适的算法。

（Release优化性能最佳）

7月8日：修复一处比较细腻的小BUG

7月9日：做了一些小优化，性能稍有提升

7月15日：经过严格测试修复一些BUG，并对代码做了性能方面的优化

7月21日：彻底解决查找不到的逻辑BUG，同时做了一些优化

7月22日：要求对单个字符的查询

/*
lpdStr 、即被搜索的文本
dnSize 、即被搜索本文的大小
lpsStr 、指定搜索的内容
snSize 、指定搜索内容的大小

返回：指定搜索内容的具体位置，否则返回（-1）
*/
#define MAX_BMAP_SIZE (256U)
#define MAX_BINDEX_SIZE (MAX_BMAP_SIZE + 1U)

static unsigned char g_strChar[MAX_BMAP_SIZE][MAX_BINDEX_SIZE] = { {0U} };

//典型的空间换时间，不要嘲笑我，我只是抓住了这条法则，去实现它
static int _cdecl al_bm_search(const unsigned char * lpdStr, int dnSize, const unsigned char * lpsStr, int snSize)
{
	register int i = 0;
	register unsigned char n;  //利用类型范围，可以让我们减少溢出判断

	/*
	对指定查找的内容进行定位整合，
	我们需要定位单个或是重复字节
	的具体位置，方便我们更能有效
	的进行模糊匹配，减少多余的比
	较。
	*/
	do {
		n = (*g_strChar[lpsStr[i]] + 1); //这里方便的指向了重复内容下一次的索引
		g_strChar[lpsStr[i]][n] = i;
		*g_strChar[lpsStr[i++]] = n;
	} while (i < snSize);

	/*
	这里我们对整合好的内容进行更有效的匹配查找，
	一定要搞清楚什么时候该用while，什么时候该用for，
	哪怕有一点点性能的提升，你都是最棒的！
	*/
	for (i = (snSize - 1); i < dnSize; i += snSize)
	{
		if (*g_strChar[lpdStr[i]] > 0U) //哦，发现有我们想要的线索
		{
			register int nOffset;

			for (n = *g_strChar[lpdStr[i]];;)
			{
				nOffset = i - g_strChar[lpdStr[i]][n]; //获得匹配内容开头字节的偏移

				if (lpdStr[nOffset] == *lpsStr)
				{
					register int nIndex = 1;

					while (nIndex < snSize) 
					{
						if (lpdStr[++nOffset] != lpsStr[nIndex]) {
							goto GOTONEXT;
						} ++nIndex;
					}

					//清理BMAP空间，以便下次复用
					i = 0; do {
						*g_strChar[lpsStr[i++]] = 0U;
					} while (i < snSize);

					return (nOffset - (nIndex - 1)); //得到我们想要内容的起始位置
				}
			GOTONEXT:
				if (!(--n)) { 
					//if (nOffset > i) { 
					//	i = (nOffset - 1); 
					//}
					break; 
				}
			}
		}
	}

	/*
	最后我们需要清理我们的BMAP空间，
	尽量减少写内容，因为那样很耗时。
	*/
	i = 0; do {
		*g_strChar[lpsStr[i++]] = 0U;
	} while (i < snSize);

	return (-1); //很遗憾，我们没有发现你想要的内容
}

我们需要来看看测试结果：第一轮是短字符测试，文档很长很大，反复N次查找，接下来我们查询“998”这个短串。