前言
最近着力于学习Python,在百度飞桨的网站上开始小白进阶之路。购买《深度学习导论与应用实践》后进行习题练习,发现一些小问题,在这里写出自己的解决方法,记个笔记帮助自己。
一、问题陈述
案例是“深度学习师资培训-豆瓣电影爬虫”,问题表现如下:
https://movie.douban.com/top250?start=0 crawl fail 418
二、解决过程
在上网百度后发现是因为目标网站反网络爬虫,如果加一个Headers属性便可以让网络爬虫更像人类访问用户。
随后在获取页面信息模块代码中加入以下代码:
headers = {'User-Agent': '', 'Referer': ''} # 添加headers
request = urllib.request.Request(url,headers=headers)#发送请求
三、结果
开始爬取......
https://movie.douban.com/top250?start=0 crawl success