今天来说一下爬取豆瓣电影,爬取这样的一个页面内容信息:
好了,进入正题,先按照我们以前的做法,准备目标网站:
url='https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action='
发起请求,获取响应:
response = requests.get(url=url)
print(response)
我们发现结果是这样的:
和以往我们见到的 [200] 不一样(关于更多 爬虫的状态码,可见这篇博客:爬虫状态码),这是因为目标网站不希望别人去爬他们的数据,设置了反爬虫的机制,那么下面我们就用到了去伪装一下,让网站识别不出来。方法很简单,就是设置 useragent 代理,去欺骗网站我们是正常的用户查询:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}
response = requests.get(url=url , headers=headers)
print(response)
现在就已经可以了,然后我们将其保存为文件:
with open('豆瓣.html','w',encoding='utf-8') as fp:
fp.write(response.text)
浏览器打开我们保存的文件 :