使用Mysql对URL进行索引

最新推荐文章于 2023-07-21 13:58:22 发布

LeiBaDrogon

最新推荐文章于 2023-07-21 13:58:22 发布

阅读量3k

点赞数

本文链接：https://blog.csdn.net/heroafei/article/details/43271143

版权

本文介绍了在网页抓取过程中如何利用MySQL对URL进行索引，以避免重复抓取。作者对比了自建索引文件、使用Lucene/Solr和MySQL三种方案，最终选择了MySQL，并详细阐述了建表、创建索引及触发器的步骤，同时提到了在触发器使用中可能遇到的问题和解决方案。

摘要由CSDN通过智能技术生成

在抓取页面的时候，很重要的一点就是要对URL进行索引，避免重复抓取。

开始想了几条路线：

一个是自己做一个索引文件，定义一个bit数组，每一位代表对应的URL是否被抓取过（0或1）。对URL进行Hash或者crc到bit数组的指定位。虽然轻便，但是要自己维护，难免不会出bug。

一个是用Lucene或者Solr，虽然简单，但是有点重量级，感觉大炮打蚊子。

一个是用mysql，对URL进行crc建立索引。最终决定用这个，直观方便也轻便。

首先根据需要建表：

create table url_visit_times (
   id int auto_increment,
  url varchar(255) not null,
  url_crc int unsigned not null default 0,
  primary key (id)
)

其中url_crc是对URL进行一个模拟哈希。

对url_crc建立索引。

再建立相应触发器：

delimiter //
create trigger url_crc before insert on url_visit_times for each row begin
set new.url_crc = crc32(new.url);
end
//


creat

关注