网络爬虫中高效率的URL索引

最新推荐文章于 2024-03-20 09:12:09 发布

冷风

最新推荐文章于 2024-03-20 09:12:09 发布

阅读量3.5k

点赞数

分类专栏： C/SDK 木马编写 C++/VC++ 文章标签： url 网络爬虫算法测试工作

本文链接：https://blog.csdn.net/chinafe/article/details/7816878

版权

C++/VC++ 同时被 3 个专栏收录

119 篇文章 1 订阅

订阅专栏

木马编写

86 篇文章 3 订阅

订阅专栏

C/SDK

52 篇文章 0 订阅

订阅专栏

在爬虫工作过程中，需要把爬过的URL做成索引，之后每次分析到新的URL时与爬过的URL匹配

一般可以使用字符串匹配，但如果有几十万，上百万数据时呢？匹配过程会非常缓慢，

这时可以使用这个算法，用哈希对URL计算一个值，然后存在一个足够大的数组中

而哈希值对应该数组的索引，在新的URL匹配时，对URL进行哈希计算，计算的值为数组的索引

这样每次匹配速度会极快，下面是代码的实现

#include <stdio.h>
#include <string.h>

int url[10000];

int Get_Url_HashIndex(char *Url,int Num)
{
	int hash = 0;

	int i;
   
	char *b= (char*)&hash;

	for(i=0;i<strlen(Url);i++)
	{
	  b[i % 4] =  b[i % 4] ^ Url[i];
	}

	return hash % Num;
}


void main()
{

	int urlindex = Get_Url_HashIndex("httn",10000);

	printf("hash:%d\n",urlindex);

	if (url[urlindex] == 0)
	{
		printf("首次匹配");
		url[urlindex] = 1;
	}

	urlindex = Get_Url_HashIndex("http://www.baidu.com",10000);
	if (url[urlindex] == 0)
	{
		printf("测试匹配");
		url[urlindex] = 1;
	}
}