scrapy爬取识货网商品信息

最新推荐文章于 2024-08-10 01:08:02 发布

肚子饿啊

最新推荐文章于 2024-08-10 01:08:02 发布

阅读量2.3k

点赞数 1

分类专栏：爬虫文章标签： scrapy 识货

本文链接：https://blog.csdn.net/qq_34192032/article/details/102770415

版权

本文介绍如何使用Scrapy框架抓取识货网的商品信息，包括通过robots.txt找到sitemap，获取商品分类，利用XPath或CSS选择器提取链接，处理查询参数构造分页链接，以及爬取商品的详细信息，如名称和价格。实测发现，识货网的爬虫能获取比官网更多的商品数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

http://www.shihuo.cn/

首先看一下识货的robots.txt
在这里插入图片描述
其中这个sitemap，站点地图，是给搜索引擎导航的
sitemap百科

一般这里面放的是网站每天更新的页面，方便搜索引擎收录，也方便了我们爬取更新信息。

首先我们要获取商品分类
在这里插入图片描述

用xpath或css selector获取ul中的a标签href属性即为待爬取链接。meta中传递一些参数给下个解析函数使用。

def parse(self, response):
        soup = BeautifulSoup(response.text, 'lxml')
        ul = soup.select(
            'body > div.shihuo-content-wrap > div > div.top-block.clearfix > div.left-menu > ul')
        a_list = ul[0].find_all('a')
        for a in a_list[2:3]