使用Mysql对URL进行索引

在抓取页面的时候,很重要的一点就是要对URL进行索引,避免重复抓取。

开始想了几条路线:

一个是自己做一个索引文件,定义一个bit数组,每一位代表对应的URL是否被抓取过(0或1)。对URL进行Hash或者crc到bit数组的指定位。虽然轻便,但是要自己维护,难免不会出bug。

一个是用Lucene或者Solr,虽然简单,但是有点重量级,感觉大炮打蚊子。

一个是用mysql,对URL进行crc建立索引。最终决定用这个,直观方便也轻便。


首先根据需要建表:

create table url_visit_times (
   id int auto_increment,
  url varchar(255) not null,
  url_crc int unsigned not null default 0,
  primary key (id)
)

其中url_crc是对URL进行一个模拟哈希。

对url_crc建立索引。


再建立相应触发器:

delimiter //
create trigger url_crc before insert on url_visit_times for each row begin
set new.url_crc = crc32(new.url);
end
//


creat
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值