爬虫Requests 1.0版本(最容易的User-Agent 伪装)先从豆瓣开始尝试爬去学习

1.首先爬虫需要导入requests库;

import requests

2.接着我们利用豆瓣网址(https://www.douban.com/)创建一个URL对象;

url = 'https://www.douban.com/'

2.1直接用requests.get()方法爬取;

import requests
url = 'https://www.douban.com/'
data = requests.get(url)

结果展示;
在这里插入图片描述
没有任何输出结果,说明爬虫被豆瓣捕捉到了,爬取失败。(不过还是有很多免费网站可以爬的,例如你们学校的官网哈哈哈哈哈…);
2.2现在把UA伪装一下,尝试重新爬取;

import requests

url = 'https://www.douban.com/'

#UA(User-Agent)伪装0.1

headers = {'User-Agent' : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36"}
data = requests.get(url,headers = headers)
print(data.text)

爬取结果展示;在这里插入图片描述3.0此时我们发现,爬取成功了。
每天一个小技巧,迟早送你三年包吃包住(本文不产生经济效益,应该不违法哈哈哈哈哈。。。。)

爬虫在访问网站时,需要发送HTTP请求头部信息。其中,User-Agent和Cookie是常见的伪装方式。 在豆瓣网站上,如果爬虫的请求头部信息过于简单,那么服务器会返回403禁止访问的错误。因此,我们需要在请求头部信息中添加一些信息来模拟浏览器的行为,从而避免被识别为爬虫。 首,我们需要设置User-Agent信息,可以使用一些常见的浏览器的User-Agent信息。其次,我们需要添加Cookie信息,可以手动从浏览器中获取一些有效的Cookie值,也可以使用一些第三方库来自动获取。最后,为了增加访问的真实性,我们可以随机生成一些请求头部信息中的字段值。 下面是一个示例代码,展示了如何在爬虫中添加伪装头部和Cookie: ``` import requests import random # 设置伪装User-Agent user_agent_list = [ "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36", ] # 随机选择一个User-Agent user_agent = random.choice(user_agent_list) # 设置Cookie信息 cookie_str = '这里填写你的Cookie' # 构造请求头部信息 headers = { 'User-Agent': user_agent, 'Cookie': cookie_str, 'Referer': 'https://www.douban.com/', 'Accept-Language': 'zh-CN,zh;q=0.8', } # 发送请求 response = requests.get(url, headers=headers) # 打印响应结果 print(response.text) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值