从robots.txt开始网页爬虫之旅

最新推荐文章于 2024-03-06 16:43:55 发布

高级全栈工程师

最新推荐文章于 2024-03-06 16:43:55 发布

阅读量1.7k

点赞数 1

分类专栏： (博客专栏)网络爬虫 Java网络爬虫文章标签： robots.txt 搜索引擎机器人爬虫

本文链接：https://blog.csdn.net/fullstack/article/details/26339361

版权

Java网络爬虫同时被 2 个专栏收录

2 篇文章 3 订阅

订阅专栏

(博客专栏)网络爬虫

1 篇文章 0 订阅

订阅专栏

做个网页爬虫或搜索引擎（以下统称蜘蛛程序）的各位一定不会陌生，在爬虫或搜索引擎访问网站的时候查看的第一个文件就是robots.txt了。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

那我们应该怎样使用robots.txt呢？

第一： robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。
第二：必须遵循以下语法：
最简单的 robots.txt 文件使用三条规则：
：User-Agent: 适用下列规则的漫游器（比如百度（Baiduspider）、Google（Googlebot））
：Disallow: 要拦截的网页（可以和）
：Allow: 允许语法（Disallow结合起来使用）

接下来让我们看下实际应用。

一般网站中不需要蜘蛛抓取的文件有：后台管理文件、程序文件、附件、图片、数据库文件、模板文件、样式表文件、编码文件、脚本文件我们可以写以下robots.txt内容：

User-agent: *
Disallow: /admin/ 后台管理文件
Disallow: /require/ 程序文件
Disallow: /attachment/ 附件
Disallow: /images/ 图片
Disallow: /data/ 数据库文件
Disallow: /template/ 模板文件
Disallow: /css/ 样式表文件
Disallow: /lang/ 编码文件
Disallow: /script/ 脚本文件

如果你想允许所有搜索引擎访问网站的所有部分

1、你可以建立一个空白的文本文档，命名为robots.txt
2、User-agent: *
Disallow:
3、User-agent: *
Allow: /

如果你想禁止所有搜索引擎访问网站的所有部分，把上面2中改成 Disallow: / 就可以了

如果你想禁止百度 User-agent: Baiduspider

如果你想禁止除Google外的一切搜索引擎

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

注：其实并非所有的爬虫都会遵从robots.txt协议的，因为我们可以制造恶意爬虫，哈哈

高级全栈工程师

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
从robots.txt开始网页爬虫之旅

做个网页爬虫或搜索引擎（以下统称蜘蛛程序）的各位一定不会陌生，在爬虫或搜索引擎访问网站的时候查看的第一个文件就是robots.txt了。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。那我们应该怎样使用robots.txt呢？
复制链接

扫一扫

专栏目录