------------------taobao.py--------------------- # -*- coding: utf-8 -*- import scrapy from scrapy import Request from urllib.parse import quote from ..items import ScrapyseleniumtestItem class TaobaoSpider(scrapy.Spider): name = 'tao_bao' allowed_domains = ['www.taobao.com'] base_url = 'https://s.taobao.com/search?q=' def start_requests(self): # 通过self.settings.get()的方式获取setting里面的参数 for keyword in self.settings.get('KEYWORDS'): for page in range(1, self.settings.get('MAX_PAGE') + 1): url = self.base_url + quote(keyword) # 通过meta={'键':"值"},传递你接下来需要的数据 yield Request(url=url, callback=self.parse, meta={ 'page':page}, dont_filter=True) def parse(self, response): # xpath中class中有空格(class="J_ItemPic img") 可以使用contains(@class,'img') products = response.xpath( '//div[@id="mainsrp-itemlist"]//div[@class="items"]//div[contains(@class, "item")]') for product in products: item = ScrapyseleniumtestItem() item['price'] = ''.join(product.xpath( './/div[contains(@class, "price")]//text()').extract()).strip() item['title'] = ''.join(product.xpath( './/div[contains(@class, "title")]//text()').extract()).strip() item['shop'] = ''.join
scrapy+selenium爬取淘宝
最新推荐文章于 2024-08-08 21:15:25 发布
该博客介绍了如何结合Scrapy和Selenium爬取淘宝网站的商品信息。通过Scrapy设置请求和解析函数,利用Selenium的PhantomJS浏览器模拟页面加载,动态获取翻页后的商品详情,包括价格、标题、店铺、图片、销量和产地等信息。最后,数据被存储到MongoDB数据库中。
摘要由CSDN通过智能技术生成