爬虫笔记3——网站爬虫协议文件

墨菲马

已于 2024-03-31 21:40:04 修改

阅读量1.7k

点赞数 12

分类专栏：爬虫笔记文章标签：爬虫笔记

于 2024-01-14 21:20:15 首次发布

本文链接：https://blog.csdn.net/Yima_Dangxian/article/details/135588378

版权

爬虫笔记专栏收录该内容

24 篇文章 5 订阅

订阅专栏

网站爬虫协议文件

每一个网站都可以查看其爬虫协议文件，直接在网站后面加上robots.txt，这个文件其实本身不起任何作用，其实你想爬还是可以爬的，但是不能破坏对方的服务器，不然可以对你进行起诉，这个协议就可以作为举证。

如以下例子：
这个是b站的爬虫协议文件，可以看到Allow和Disallow，分别是允许被哪些爬，哪些不允许爬
在这里插入图片描述
为什么记录这个呢，因为我们访问网页在请求服务器时会携带一些参数，其中就有一个User-agent（可以打开开发者工具查看），请求体如果少了这个参数，网站就知道你不是浏览器，是狗爬虫了，就不让我们获取信息。
在这里插入图片描述

所以在使用爬虫用requests三方库时，不携带该参数进行请求网页的话，就会禁止你获取其网页信息，从而导致获取失败。解决方法就是带上这个参数就可以了，让被爬网站误以为你其实是个浏览器

#可以在requests.get()里添加user-agent参数发起请求
resp = requests.get(
url = “https://www.bilibili.com”,
headers = {
  'User-Agent' : 'BaiduSpider'
}
)
print(resp.text)