查看爬虫协议

最新推荐文章于 2024-07-30 17:21:38 发布

C0die

最新推荐文章于 2024-07-30 17:21:38 发布

阅读量1.2w

点赞数 10

分类专栏：学习笔记文章标签：爬虫

本文链接：https://blog.csdn.net/C0die/article/details/83794163

版权

学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。——百度百科

爬网页之前，要先查看爬虫协议。

查看爬虫协议的方法：主域名/robots.txt

User-agent: * 这里的*代表的所有的搜索引擎种类，*是一个通配符

Disallow: /admin/ 禁止爬寻admin目录下面的目录

Disallow: /require/ 禁止爬寻require目录下面的目录

Disallow: /ABC/ 禁止爬寻ABC目录下面的目录

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址

Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片

Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。

Allow: /cgi-bin/　允许爬寻cgi-bin目录下面的目录

Allow: /tmp 允许爬寻tmp的整个目录

Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片

Sitemap: 网站地图

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

C0die

关注关注

10
点赞
踩
39

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫基础（十）分析Robots协议

2303_77841383的博客

06-14

2679

利用urllib的robotparser，我们可以实现网站Robots协议的分析。

网络爬虫项目开发日志（五）: 爬虫协议初探

qq_33134761的博客

11-16

1205

--前言-- 常在河边走，哪有不湿鞋有的时候，网络爬取就像串门一样，如果守规矩的话，是需要先打个电话给主人预约一下，或是进门的时候先敲门看看主人是否在家，如果主人允许咱进去，咱再进去，进去后，也不要东摸摸西看看，否则主人是会发飙了，搞不好就会逐客了。 --概念-- 网络爬取领域，也是一样的，也有着通用的规范，称之为机器人协议，这是一个面向计算机网络搜索引擎的，以Robots命名的

参与评论您还未登录，请先登录后发表或查看评论

爬虫笔记3——网站爬虫协议文件

Yima_Dangxian的博客

01-14

1855

爬虫协议文件

Python爬虫教程，零基础教程（爬取网页数据）

热门推荐

我是张先生

01-02

1万+

网站首页网址/robots.txt

计算机-爬虫-搜索引擎爬虫协议的竞争法分析.pdf

07-09

搜索引擎爬虫协议的竞争法分析计算机领域中的爬虫协议（Robots 协议）是一种网络服务商可以设立的电子文件，旨在向搜索引擎示明哪些内容可以抓取，而搜索引擎则可以读取该文件来识别所在页面是否允许被抓取。然而...

python爬虫HTTP协议剖析

08-02

Python爬虫HTTP协议剖析 Python爬虫HTTP协议剖析是指使用Python语言编写的爬虫程序来分析和解析HTTP协议的工作机制。HTTP协议是目前最流行的网络协议之一，广泛应用于网页浏览、网络爬虫、API接口等领域。 HTTP...

《反不正当竞争法》视角下爬虫协议规制的现实困境与出路探寻.pdf

07-29

在互联网时代，搜索引擎和网站之间的互动行为日渐频繁，其中涉及到的核心问题之一就是爬虫协议（robots.txt）的规制问题。爬虫协议是一种用来告知网络爬虫哪些页面可以抓取，哪些页面不可以抓取的协议。它通常通过...

HTTP协议及网络爬虫

10-11

为了限制爬虫行为，网站通常会使用Robots协议，这是一种在网站根目录下放置的`robots.txt`文件，指明哪些页面可以被爬取，哪些不能。尽管Robots协议是非约束性的，但不遵守它可能会导致法律风险。网络爬虫在实际...

python爬虫入门教程–快速理解HTTP协议（一）

12-24

爬虫的基本原理是模拟浏览器进行 HTTP 请求，理解 HTTP 协议是写爬虫的必备基础，招聘网站的爬虫岗位也赫然写着熟练掌握HTTP协议规范，写爬虫还不得不先从HTTP协议开始讲起 HTTP协议是什么？你浏览的每一个网页都是...

如何查看robots协议？怎么写？

weixin_43854793的博客

10-08

3834

对于seo来讲，robots文件非常重要。搜索引擎爬虫爬取的网站的第一个文件便是这个文件，这个文件告诉搜索引擎网站的那些内容可以被爬取，那些内容不能被爬取，或者说禁止爬取。怎么查看robots协议？可以使用这种办法，主域名/robots.txt。怎么写robots协议？当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。一、什么是Rob

Python-爬虫基础—查看网页。

yuhaosun's blog

06-05

1249

爬虫时有些网站没有api接口，需要转换成json格式，这期教程来分享一下，如何获取网页headers和一些参数。

网络爬虫——HTTP和HTTPS的请求与响应原理

随便写写

09-22

2033

在如今这个数据驱动的时代，网络爬虫在数据采集、信息抓取和处理等方面发挥着越来越重要的作用。为了更好地理解和应用网络爬虫，我们需要深入了解HTTP和HTTPS的请求与响应原理。本文将带领大家探讨这些基本原理，带您领略网络爬虫的魅力。

HTTP基本协议(查看网页代码)

weixin_30788619的博客

12-24

112

此示例已实现查看网页的代码来理解HTTP基本协议：（返回的是百度首页的网页代码） 1 import java.io.BufferedReader; 2 import java.io.IOException; 3 import java.io.InputStreamReader; 4 import java.io.OutputStream; 5 import java.i...

我写过的爬虫

进击的奥利弗 IO/Fox

07-04

922

个人项目免责声明：本文章涉及到的应用仅供学习交流使用，不得用于任何商业用途，数据来源于互联网，与本人无关！由此引发的任何法律纠纷与本人无关！写在前面：我一直在写爬虫，无论是最开始的大学时期的C# WinForm爬虫，还是Java爬虫，又或是Python爬虫，Android爬虫，到今天的Flutter爬虫。爬虫 1.接口请求式他们的原理始终都是一样的，那就是：设置正常的浏览器User-Agent 处理好页面内容的缓存，避免相同地址下产生多次请求处理好重定向通过Chrome浏览器的F12功能

如何查看一个网站的robots协议？

wanjialin的博客

04-12

9926

问：如何查看一个网站的robots协议？答：在该网站首页网址后加入/robots.txt就可以查看该网站的robots协议。例：以淘宝网站为例。首先进入淘宝网站首页在网站后输入/robots.txt就可以查看了。 ...

爬虫Robots协议

落风听雨

02-21

8908

Robots协议就是每个网站对于来到的爬虫所提出的要求。(并非强制要求遵守的协议，只是一种建议，但是如果不遵守有可能会承担法律责任。）每个网站的Robots协议都在该网站的根目录下，例如百度的Robots协议的位置就是’https://www.baidu.com/robots.txt’ 或者京东的Robots协议就在’https://www.jd.com/robots.txt’ 下面给出...

Python爬虫详解：HTTP协议解析与操作关键

本文将深入剖析Python爬虫中的HTTP协议，这是网络数据抓取和自动化任务的基础。HTTP（Hypertext Transfer Protocol）是客户端与服务器之间传输数据的主要协议，用于在万维网（WWW）上进行通信。Python爬虫通过库如...