综合
文章平均质量分 77
ErosSignum
情深不寿 强极则辱 谦谦君子 温润如玉
展开
-
robots.txt
robots.txt是个很简单的文本文件,只要标明“谁不能访问哪些链接”即可。 在文件的第一行写: User-Agent: YodaoBot 这就告诉了爬虫下面的描述是针对名叫YodaoBot的爬虫:User-Agent: * 这就意味着向所有的爬虫开放。需要注意的是一个robots.txt文件里只能有一个"User-Agent: *"。 接下来是不希望被访问的链接前缀。例如: Disallow:转载 2008-10-14 15:56:00 · 530 阅读 · 0 评论 -
Google SiteMap Protocol
Google SiteMap Protocol是Google自己推出的一种站点地图协议,此协议文件基于早期的robots.txt文件协议,并有所升级。在Google官方指南中指出加入了Google SiteMap文件的网站将更有利于Google网页爬行机器人的爬行索引,这样将提高索引网站内容的效率和准确度。文件协议应用了简单的XML格式,一共用到6个标签,其中关键标签包括链接地址、更新时间、更新频转载 2008-10-14 16:11:00 · 676 阅读 · 0 评论