从robots.txt开始网页爬虫之旅

        做个网页爬虫或搜索引擎(以下统称蜘蛛程序)的各位一定不会陌生,在爬虫或搜索引擎访问网站的时候查看的第一个文件就是robots.txt了。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

        当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

         那我们应该怎样使用robots.txt呢?

         第一: robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
         第二:必须遵循以下语法:
                             最简单的 robots.txt 文件使用三条规则:
                             :User-Agent: 适用下列规则的漫游器(比如百度(Baiduspider)、Google(Googlebot))
                             :Disallow: 要拦截的网页(可以和)
                             :Allow: 允许语法(Disallow结合起来使用)

        接下来让我们看下实际应用。

一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序文件、附件、图片、数据库文件、模板文件、样式表文件、编码文件、脚本文件我们可以写以下robots.txt内容:

       User-agent: *
       Disallow: /admin/ 后台管理文件
       Disallow: /require/ 程序文件
       Disallow: /attachment/ 附件
       Disallow: /images/ 图片
       Disallow: /data/ 数据库文件
       Disallow: /template/ 模板文件
       Disallow: /css/ 样式表文件
       Disallow: /lang/ 编码文件
       Disallow: /script/ 脚本文件

如果你想允许所有搜索引擎访问网站的所有部分

1、你可以建立一个空白的文本文档,命名为robots.txt
2、User-agent: *
       Disallow:
3、User-agent: *
      Allow: /

如果你想禁止所有搜索引擎访问网站的所有部分,把上面2中改成    Disallow: /    就可以了

如果你想禁止百度    User-agent: Baiduspider

如果你想禁止除Google外的一切搜索引擎

       User-agent: Googlebot
       Disallow:
       User-agent: *
       Disallow: /

注:其实并非所有的爬虫都会遵从robots.txt协议的,因为我们可以制造恶意爬虫,哈哈

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值