关于我们
作者:python爱好者、自学ing
个人网站 :到哪儿找导航 欢迎访问!
联系交流:QQ群726693257
背景说明
最近看爬虫教程,讲了豆瓣的爬取,此文作为练习记录。
目标链接:https://www.douban.com/group/EmirKusturica/members?start=35
查看方法:chrome中右键-查看网页源代码
爬取方法:由于目标信息属于存放在html源代码中的静态信息,用scrapy最方便
新建project项目&站点test
新建project和spider
scrapy startproject douban_group
cd douban_group
scrapy genspider douban douban.com
用scrapy shell url进行站点访问测试
scrapy shell https://www.douban.com/group/EmirKusturica/members
报错提示:response 403。表示目标服务器没有正常响应
解决措施:
cd 进入该工程文件夹下
打开工程文档里的settings.py文件
找到DEFAULT_REQUEST_HEADERS,向其中加入Referer、User-Agent两项request参数
代码:
DEFAULT_REQUEST_HEADERS = {
# 'Accept': 'text/html,applicat