1.首先爬虫需要导入requests库;
import requests
2.接着我们利用豆瓣网址(https://www.douban.com/)创建一个URL对象;
url = 'https://www.douban.com/'
2.1直接用requests.get()方法爬取;
import requests
url = 'https://www.douban.com/'
data = requests.get(url)
结果展示;
没有任何输出结果,说明爬虫被豆瓣捕捉到了,爬取失败。(不过还是有很多免费网站可以爬的,例如你们学校的官网哈哈哈哈哈…);
2.2现在把UA伪装一下,尝试重新爬取;
import requests
url = 'https://www.douban.com/'
#UA(User-Agent)伪装0.1
headers = {'User-Agent' : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36"}
data = requests.get(url,headers = headers)
print(data.text)
爬取结果展示;3.0此时我们发现,爬取成功了。
每天一个小技巧,迟早送你三年包吃包住(本文不产生经济效益,应该不违法哈哈哈哈哈。。。。)