爬取结果
mongodb数据库:
spider文件
分析秀动网站页面的布局,准备爬取我们需要的信息。
没有粘贴代码,简单讲解一下爬取上海所有的演出信息。
parse方法里面定义
页面演出信息的列表:
datas = response.xpath("/html/body/div[4]/ul/li")
循环遍历这个列表,可以取到我们需要的剧目名称和详情页的url
item['show_name'] = data.xpath('a/@title').extract()[0]
url = data.xpath('a/@href').extract()[0]
然后采用回调函数指向下一个函数,主要对详情页处理
meta参数传递字典
yield scrapy.Request(url, callback=self.parse_details, meta=({'item': item}))
parse_details方法
拿到上个函数传递的字典
item = response.meta['item']