网站爬虫协议文件
每一个网站都可以查看其爬虫协议文件,直接在网站后面加上robots.txt,这个文件其实本身不起任何作用,其实你想爬还是可以爬的,但是不能破坏对方的服务器,不然可以对你进行起诉,这个协议就可以作为举证。
如以下例子:
这个是b站的爬虫协议文件,可以看到Allow和Disallow,分别是允许被哪些爬,哪些不允许爬
为什么记录这个呢,因为我们访问网页在请求服务器时会携带一些参数,其中就有一个User-agent(可以打开开发者工具查看),请求体如果少了这个参数,网站就知道你不是浏览器,是狗爬虫了,就不让我们获取信息。
所以在使用爬虫用requests三方库时,不携带该参数进行请求网页的话,就会禁止你获取其网页信息,从而导致获取失败。解决方法就是带上这个参数就可以了,让被爬网站误以为你其实是个浏览器
#可以在requests.get()里添加user-agent参数发起请求
resp = requests.get(
url = “https://www.bilibili.com”,
headers = {
'User-Agent' : 'BaiduSpider'
}
)
print(resp.text)