Robots协议

最新推荐文章于 2022-07-12 17:23:01 发布

weixin_30627341

最新推荐文章于 2022-07-12 17:23:01 发布

阅读量118

点赞数

原文链接：http://www.cnblogs.com/weihuchao/p/6700078.html

版权

1 一般对爬虫的限制

　　爬虫会造成问题

　　　　对网站服务器的骚扰

　　　　可能会引起法律问题

　　　　而且可能由于爬虫具有一定的突破性, 可能获取一些平常不能获取到的数据造成隐私泄露

　　一般对爬虫限制的两个方法

　　　　1) 来源审查, 判断User-Agent进行限制

　　　　　　具体来说就是根据HTTP来访的协议头中的User-Agent

　　　　2) robots协议

2 robots协议

　　在网站的根目录下, 有一个robots.txt文件就是该网站的robots协议的描述

　　如果网站没有robots协议就说明该网站对网络爬虫没有限制

　　robots的格式是

　　　　User-agent : 拒绝的网络爬虫

　　　　Disallow: 禁止爬取的目录

User-agent: HuihuiSpider 
Disallow: / 
#这个robots协议就说明不允许HuihuiSpider 爬取该网站的任何网页

　　robots协议的规则

　　　　robots是建议性的文件, 无法做到约束, 但是不遵守会存在法律风险

　　　　如果爬取的性能类似人的操作, 不会造成对网站服务器性能的影响, 原则上可以忽略robots协议

转载于:https://www.cnblogs.com/weihuchao/p/6700078.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30627341

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

使用网络爬虫需要知道的准则——robots协议

Abgler的博客

04-22

4216

前言因为网络爬虫可从服务器爬取各种内容，所以可能存在涉及个人隐私或商业机密的内容，给使用者和服务器管理者带来不必要的困扰与纠纷，所以需要robots协议来对其进行规范。正文有些企业的服务器设置有对特定爬虫的拦截功能，但并不是所有企业均有能力设置和管理对爬虫进行拦截的功能，所以robots协议便诞生了。此协议告知了爬虫爬取该网站时应遵循的准则，并详细说明了何种爬虫禁止爬取何种网页。我...

ROBOTS协议

cold1sober的博客

09-05

2662

1、Robots协议 Robots协议的全称即网络爬虫排除标准”（Robots Exclusion Protocol）,，网站通过Robots协议告诉搜索引擎（或者网络蜘蛛）可以抓取的页面范围。 robots.txts是一个文本文件，是一个协议，而并非一个命令， ...

参与评论您还未登录，请先登录后发表或查看评论

spider之robots协议（新人小结）

qq_41096887的博客

07-03

1491

网络爬虫与信息提取 **要求掌握定向网络数据爬取和网页解析的基本能力希望能够坚持的理念 The website is API………. 想再多磨叽几嘴，还是算了吧，暴露我学艺不精的事实一个网站想限制网络爬虫，有两个方法：一个是审查来源，一个是通过robots协议来进行告知 Robots.txt 全称：Robots Exclusion Standard 网络爬虫排除...

简单反爬虫技术介绍

weixin_30663471的博客

07-27

1282

反爬虫的技术大概分为四个种类：注：文末有福利！一、通过User-Agent来控制访问：无论是浏览器还是爬虫程序，在向服务器发起网络请求的时候，都会发过去一个头文件：headers，比如知乎的requestsheaders: Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/we...

网络爬虫的规则

拉风小宇的博客

09-04

5320

网络爬虫引发的问题网络爬虫的尺寸网络爬虫的“性能骚扰” Web服务器默认接收人类访问受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销网络爬虫的法律风险服务器上的数据有产权归属网络爬虫获取数据后牟利将带来法律风险网络爬虫的隐私泄露网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私网络爬虫引发的问题

robots协议

Nobug_的博客

08-05

1641

一、概述 robots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Meta.

爬虫：Robots协议

二十四桥明月夜

11-29

2302

Robots 协议也称作爬虫协议、机器人协议，它的全名叫作网络爬虫排除标准（ Robots Exclusion Protocol ），用来告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取它通常是一个叫作 robots.txt的文本文件，一般放在网站的根目录下当搜索爬虫访问一个站点时，它首先会检查这个站点根目录下是否存在 robots.txt 文件，如果存在，搜索爬虫会根据其中定义的爬取范围来爬取，如果没有找到这个文件，搜索爬虫便会访问所有可直接访问的页面：看个robots.txt的样例： .

关于robots协议

qq_53105813的博客

07-12

2663

每天积累一点点

网络爬虫之Robots协议

sk_berry的博客

12-02

1583

网络爬虫之Robots协议1、Robots协议基本语法2、Robots协议的使用及理解 Robots协议是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件，该协议仅约定俗成，道德约束，无法律效益和实质性的安全意义，放在网页的根目录下。存在该协议的原因请看下图所示： 1、Robots协议基本语法 # 注释， *代表所有， /代表根目录 User-agent: * Disallow: / 其中：

嵩天老师python爬虫笔记整理week1

Laic Zhang的博客

05-18

3323

1.Request库入门首先来看下request的基本使用,基本使用如下 requests.get(url, params=None, **kwargs) url : 拟获取页面的url链接 params : url中的额外参数，字典或字节流格式，可选 **kwargs: 12个控制访问的参数 import requests r=requests.get("http://www.ba...

最全反爬虫技术介绍

shenshaoming的博客

11-06

1771

反爬虫的技术大概分为四个种类：注：文末有福利！一、通过User-Agent来控制访问：无论是浏览器还是爬虫程序，在向服务器发起网络请求的时候，都会发过去一个头文件：headers，比如知乎的requests headers:Accept:text/html,applicati...

python 网络爬虫的Robots协议

k_koris的博客

10-07

2873

网络爬虫的尺寸大致分为3种：而第一种大致占到了90%。由于网络爬虫的存在，服务器会因为网络爬虫造成很大的资源开销，比如一个普通人一定时间内访问上十次，而爬虫可能会访问十万次或者百万次。如果一个服务器性能较差，可能会承受不来这个规模的访问。因此网络上对爬虫有一定的制约，对于一些不友好的爬虫，甚至可能会涉及到触犯到法律。现在一般的网站都会对爬虫做出限制，大致分为两种：现在说一...

对网易云音乐参数（params，encSecKey）的分析

weixin_30243533的博客

03-05

2117

我们如果对网易云音乐进行爬虫的话，我们会发现，提交的参数是（params，encSecKey），然而这两个参数是一串很长的东西我们要对网易云进行爬虫，那么就一定要将这两个参数弄明白，然后才可以进行爬虫，不然这两个参数将限制着我们很多事情，下面是我对这两个参数的分析，参考了知乎大神的方法，这里将原帖地址写上来https://www.zhihu.com/question/3608176...

关于网易云音乐爬虫的api接口？

weixin_33836223的博客

06-11

478

抓包能力有限，分析了一下网易云音乐的一些api接口，但是关于它很多post请求都是加了密，没有弄太明白。之前在知乎看到过一个豆瓣工程师写的教程，但是被投诉删掉了，请问有网友fork了的吗？因为我觉得他写的代码都比较pythonic，符合pep8规范。知乎另外几名大V比如@路人...

使用爬虫爬取网站，常用的解决IP被封的办法

weixin_34366546的博客

12-19

1046

2019独角兽企业重金招聘Python工程师标准>>> ...

网易云音乐的API接口及爬虫代码