基于Scrapy框架的当当网编程开发图书定向爬虫

最新推荐文章于 2024-03-19 20:17:51 发布

gf_lvah

最新推荐文章于 2024-03-19 20:17:51 发布

阅读量577

点赞数 1

本文链接：https://blog.csdn.net/gf_lvah/article/details/89518301

版权

该项目演示如何使用Scrapy框架构建一个爬虫，从当当网上抓取编程开发类图书的信息，包括标题、价格、作者、评论数、出版时间和出版社等，并通过CSV格式存储数据和保存相关图片。

摘要由CSDN通过智能技术生成

1 项目描述

喜欢买书的朋友肯定听说过当当图书，当当图书包含小说、童书、教辅、教材、考试、外语等多个图书种类，书籍相比其他网站算是比较全的。

本项目仅以采集当当网里面编程开发类的书籍为例。在实际操作过程中，可根据需要，更换要采集的分类网址。还可使用URL列表循环，批量采集多个分类网址的书籍。
本项目采集的当当，具体字段为：图书标题，图书价格，图书作者，评论数量，图书出版时间，出版社，图书简介。

2 项目实现步骤

2.1 新建项目(`scrapy startproject xxx`):

新建一个新的爬虫项目;

 scrapy  genspider dd 'dangdang.com'

2.2 明确目标(编写`item.py`)

明确你要抓取的目标;

class DangdangItem(scrapy.Item):
    # 图书标题
    title = scrapy.Field()
    # 图书价格
    price = scrapy.Field()
    # 图书作者
    author = scrapy.Field()
    # 评论数量
    comment_num = scrapy.Field()
    # 图书出版时间
    publication_date = scrapy.Field()
    # 出版社
    publication_house = scrapy.Field()
    # 图书简介
    introduction = scrapy.Field()
    # 图书图片的url地址
    image_url = scrapy.Field()
    # 下载图片存放位置
    image_path = scrapy.Field()

2.3 制作爬虫(`spiders/xxspider.py`)

– 制作爬虫, 开始爬取网页;

注意:测试阶段只爬取了5页的数据信息，当然可以进一步修改最后三行代码；


# -*- coding: utf-8 -*-
import scrapy

from mySpider.items import DangdangItem


class DdSpider(scrapy.Spider):
    name = 'dd'
    allowed_domains = ['dangdang.com']
    start_urls = [
        'http://search.dangdang.com/?key=python',
        # 'http://search.dangdang.com/?key=开发',
    ]

    def parse(self, response):
        books = response.xpath('//ul[@class="bigimg"]/li')

        # from scrapy.shell import inspect_response
        # inspect_response(response, self)

        for book in books:
            item = DangdangItem()
            item['title'] = book.xpath('./a[@class="pic"]/@title').extract_first()
            item['price'] = book.xpath('./p/span[@class="search_now_price"]/text()').extract_first()
            item['author'] = book.xpath(

最低0.47元/天解锁文章

gf_lvah

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
基于Scrapy框架的当当网编程开发图书定向爬虫

1 项目描述喜欢买书的朋友肯定听说过当当图书，当当图书包含小说、童书、教辅、教材、考试、外语等多个图书种类，书籍相比其他网站算是比较全的。本项目仅以采集当当网里面编程开发类的书籍为例。在实际操作过程中，可根据需要，更换要采集的分类网址。还可使用URL列表循环，批量采集多个分类网址的书籍。本项目采集的当当，具体字段为：图书标题，图书价格，图书作者，评论数量，图书出版时间，出版社，图书简...
复制链接

扫一扫