scrapy项目--苏宁图书栏目内容爬虫

最新推荐文章于 2021-10-11 07:32:16 发布

DoctorAyuan

最新推荐文章于 2021-10-11 07:32:16 发布

阅读量261

点赞数 1

文章标签： python 爬虫

本文链接：https://blog.csdn.net/doctorayuan/article/details/116724360

版权

本文记录了一位Python初学者使用Scrapy爬取苏宁图书分类下书籍的标题、图片、信息及价格的过程。在实践中遇到因视频教程过时导致的技术难题，如XPath和正则表达式的运用，以及数据提取和多线程中的问题。通过项目，作者总结了在获取数据时需仔细审查元素，避免数据重合，并强调了及时解决问题的重要性。

摘要由CSDN通过智能技术生成

scrapy项目–苏宁图书栏目内容爬虫

简介

来自一个自学爬虫的Python小白的经历：通过网络上的教学视频，模仿编程。由于视频资源比较老旧，技术更新较快，所以有些方面难以做到用视频教学代码成功运行。此篇只记录产生的问题，包括已经解决和未解决的。再次申明，只是小白，只是简单的记录问题。

目的：爬取每个大分类下的小分类的每一本书的标题，图片，信息以及图书详情页的价格

scrapy创建爬虫

scrapy startproject mySpider 
scrapy genspider name name.cn

使用库和方法

import scrapy
import re
from copy import deepcopy

找到初始地址
start_urls = ['https://book.suning.com/?safp=#########']

使用xpath对大分类、小分类进行分组

    div_list = response.xpath("//div`[@class='menu-list']/div")
        print(div_list)
        for div in div_list:
            item = {
     }
            # 大分类
            item["b_name"] = div.xpath("./dl/dt/h3/a/text()").extract_first()
            item["b_href"] = div.xpath("./dl/dt/h3/a/@href").extract_first()
            # 小分类分组
            d_list = div.xpath("./dl/dd")

提取每个小分类的url地址

        for d in d_list:
            item["a_name"] = d.xpath("./a/text()"

最低0.47元/天解锁文章

DoctorAyuan

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy项目--苏宁图书栏目内容爬虫

scrapy项目–苏宁图书栏目内容爬虫简介来自一个自学爬虫的Python小白的经历：通过网络上的教学视频，模仿编程。由于视频资源比较老旧，技术更新较快，所以有些方面难以做到用视频教学代码成功运行。此篇只记录产生的问题，包括已经解决和未解决的。再次申明，只是小白，只是简单的记录问题。目的：爬取每个大分类下的小分类的每一本书的标题，图片，信息以及图书详情页的价格scrapy创建爬虫scrapy startproject mySpider scrapy genspider name name.cn
复制链接

扫一扫