7-5 开源情报之URL查重简化版-散列表查找
分数 15
中等
作者 袁恩
单位 中国人民解放军陆军工程大学
开源情报是指通过公开可用的数据和信息获取情报。随着信息技术的发展,互联网已成为各类情报组织的主要工具之一。在互联网上通过URL访问网站,开源情报系统通过海量的URL搜集信息,这些URL存在大量的重复,通过散列表可以快速的实现,目前实现中常用布隆过滤器的判重方式。本题中,为了简化编程,假设URL已经通过函数转换成了整数,并且采用简单的散列表实现。设散列表a[18],散列函数是hash(k)=k%17,用开放地址法解决冲突hi=(h0+di)%m。冲突时采用随机探测法,使用增量序列di+1=(5*di+11)%16,其中d0=h0。计算输入序列(值>=0)对应的散列地址并进行查找,如果有此元素,则输出散列地址,如果无此元素,则输出not found。并输出查找次数(输入个数不会超过15个)
输入格式:
第一行为输入个数;
第二行为对应的输入值,用空格隔开;
第三行为需查找的元素个数;
第四行为需查找的元素。
输出格式:
第一行依次输出输入序列的散列地址,以一个空格隔开;
第二行开始输出查找元素的散列地址,每个元素占一行,每行对应一个值及其散列地址,中间用空格隔开(即pos前后均有一个空格),如果无此元素,则输出not found。
输入样例:
5
48 65 82 90 40
3
82 48 99
输出样例:
14 15 7 5 6
82 pos:7,try 4
48 pos:14,try 1
99 not found,try 5
考虑到所有情况,查找成功的不用说,查找不成功的情况有:第一种是h0的位置是0,说明根本没存,直接输出not found;第二种是位置一直被占用,直到查到为0,也说明没查到,输出not found。
ps.有查重,请勿照搬,谢谢配合!
#include<stdio.h>
int main()
{
int n1,n2,b[15],a[19]={0},c[15],i,h0,h,num,t=1;
scanf("%d",&n1);
for(i=0;i<n1;i++)
scanf("%d",&b[i]);
for(i=0;i<n1;i++)//存地址
{
h0=b[i]%17;
if(a[h0]==0)
{
a[h0]=b[i];
printf("%d ",h0);
continue;
}
else
{
num=h0;
h=h0;
while(a[h]!=0)
{
num=(5*num+11)%16;
h=(h0+num)%18;
}
a[h]=b[i];
printf("%d ",h);
}
}
printf("\n");
scanf("%d",&n2);
for(i=0;i<n2;i++)
scanf("%d",&c[i]);
for(i=0;i<n2;i++)
{
h0=c[i]%17;
t=1;
if(a[h0]==c[i])
{
printf("%d pos:%d,try %d\n",c[i],h0,t);
continue;
}
else if(a[h0]==0)
printf("%d not found,try %d\n",c[i],t);
else if(a[h0]!=c[i])
{
t=1;
h=h0;
num=h0;
while(a[h]!=c[i]&&a[h]!=0)
{
num=(5*num+11)%16;
h=(h0+num)%18;
t++;
}
if(a[h]!=0)
printf("%d pos:%d,try %d\n",c[i],h,t);
else if(a[h]==0)
printf("%d not found,try %d\n",c[i],t);
}
}
return 0;
}