ELF hash算法 java版

在Heritrix的 Queue-assignment-policy的设置中。
当我们设置了在特定的域名下爬行的时候,经常会碰到永远只有一个线程在运行的情况,导致爬行十分缓慢。这是因为Heritrix默认使用HostnameQueueAssignmentPolicy来产生key值,从这个策略的名字,我们也可以很容易的看出,key跟hostname是有关系的。而事实上,这个策略正是用hostname作为key值的。因此一个域名下的所有链接都会放到同一个线程中去。
在开发自己的搜索引起的书中提到ELF hash算法,但没有实现的例子,在网上找了下,贴代码,备份以后用

import java.util.logging.Logger;

import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.framework.CrawlController;
import org.archive.crawler.frontier.QueueAssignmentPolicy;

public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy {

private static Logger logger = Logger.getLogger(ELFHashQueueAssignmentPolicy.class.getName());
@Override
public String getClassKey(CrawlController controller, CandidateURI cauri) {

String uri = cauri.getUURI().toString();
long hash = ELFHash(uri);
String a=Long.toString(hash%100);
return a;
}
public long ELFHash(String strUri) {
long hash = 0;
long x=0;
for(int i=0;i<strUri.length();i++)
{
hash = (hash<<4)+strUri.charAt(i);
if((x=hash & 0xF0000000L) != 0)
{
hash^=(x>>24);
hash &=~x;
}
}
return (hash & 0x7FFFFFFF);
}

}



[color=red]不断左移位与当前字符相加,当移到高4位有值时循环回来,把高8位异或到低8位上。[/color]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值