首先看一下识货的robots.txt
其中这个sitemap,站点地图,是给搜索引擎导航的
sitemap百科
一般这里面放的是网站每天更新的页面,方便搜索引擎收录,也方便了我们爬取更新信息。
首先我们要获取商品分类
用xpath或css selector获取ul中的a标签href属性即为待爬取链接。meta中传递一些参数给下个解析函数使用。
def parse(self, response):
soup = BeautifulSoup(response.text, 'lxml')
ul = soup.select(
'body > div.shihuo-content-wrap > div > div.top-block.clearfix > div.left-menu > ul')
a_list = ul[0].find_all('a')
for a in a_list[2:3]