安装完Scrapy框架,就很想试一下,平时对电影感兴趣,于是想着去豆瓣电影爬取一些电影资料,和我若干T的电影资源对接一下,哈哈!
Scrapy项目创建好之后,会默认生成项目文件夹和对应的文件,具体的大家可以查些资料。
1、首先创建爬虫模块,保存在spiders目录下,取名doubanspider.py。
其中,start_urls就是你第一个进入的URL地址。
当然,为了不被网站屏蔽掉,伪装一个模拟器也是比较重要的,user_agent就是做这个的。
parse是Spider的一个方法,被调用时,每个初始URL响应后返回的Response对象,将会作为唯一的参数传递给该方法。该方法负责解析返回的数据(responsedata)、提取数据(生成item)以及生成需要进一步处理的URL的Requ对象。
class DoubanSpider(scrapy.spiders.Spider):
name = 'douban'
allowed_doumains = ["douban.com"]
start_urls = ["https://movie.douban.com"]
user_agent = 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0' # 模拟浏览器
headers = {'User-Agent': user_agent}
de