scrapy项目--苏宁图书栏目内容爬虫

本文记录了一位Python初学者使用Scrapy爬取苏宁图书分类下书籍的标题、图片、信息及价格的过程。在实践中遇到因视频教程过时导致的技术难题,如XPath和正则表达式的运用,以及数据提取和多线程中的问题。通过项目,作者总结了在获取数据时需仔细审查元素,避免数据重合,并强调了及时解决问题的重要性。
摘要由CSDN通过智能技术生成

scrapy项目–苏宁图书栏目内容爬虫

简介

来自一个自学爬虫的Python小白的经历:通过网络上的教学视频,模仿编程。由于视频资源比较老旧,技术更新较快,所以有些方面难以做到用视频教学代码成功运行。此篇只记录产生的问题,包括已经解决和未解决的。再次申明,只是小白,只是简单的记录问题。

目的:爬取每个大分类下的小分类的每一本书的标题,图片,信息以及图书详情页的价格
  • scrapy创建爬虫
    scrapy startproject mySpider 
    scrapy genspider name name.cn
    
  • 使用库和方法
    import scrapy
    import re
    from copy import deepcopy
    
  • 找到初始地址
    start_urls = ['https://book.suning.com/?safp=#########']
  • 使用xpath对大分类、小分类进行分组
        div_list = response.xpath("//div`[@class='menu-list']/div")
            print(div_list)
            for div in div_list:
                item = {
         }
                # 大分类
                item["b_name"] = div.xpath("./dl/dt/h3/a/text()").extract_first()
                item["b_href"] = div.xpath("./dl/dt/h3/a/@href").extract_first()
                # 小分类分组
                d_list = div.xpath("./dl/dd")
    
    • 提取每个小分类的url地址
              for d in d_list:
                  item["a_name"] = d.xpath("./a/text()"
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值