spider是搜索引擎的必须模块.spider 数据 的结果直接影响到搜索引擎的评价指标.
第一个spider程序由MIT的Matthew K Gray操刀该程序的目的是为了统计互联网中主机的数目
>Spier定义(关于Spider的定义,有广义和狭义两种).
狭义:利用 标准 的http协议根据超链和 web 文档检索的方法遍历万维网 信息 空间的 软件 程序.
广义:所有能利用http协议检索web文档的软件都称之为spider.
其中Protocol Gives Sites Way To Keep Out The ′Bots Jeremy Carl, Web Week, Volume 1, Issue 7, November 1995 是和spider息息相关的协议,大家有兴趣参考robotstxt.org.
Heritrix
Heritrix is the Internet Archive′s open-source, extensible, web-scale, archival-quality web crawler project.
Heritrix (sometimes spelled he