基于Scrapy框架的当当网编程开发图书定向爬虫

该项目演示如何使用Scrapy框架构建一个爬虫,从当当网上抓取编程开发类图书的信息,包括标题、价格、作者、评论数、出版时间和出版社等,并通过CSV格式存储数据和保存相关图片。
摘要由CSDN通过智能技术生成

1 项目描述

喜欢买书的朋友肯定听说过当当图书,当当图书包含小说、童书、教辅、教材、考试、外语等多个图书种类,书籍相比其他网站算是比较全的。

  • 本项目仅以采集当当网里面编程开发类的书籍为例。在实际操作过程中,可根据需要,更换要采集的分类网址。还可使用URL列表循环,批量采集多个分类网址的书籍。

  • 本项目采集的当当,具体字段为:图书标题,图书价格,图书作者,评论数量,图书出版时间,出版社,图书简介。

2 项目实现步骤

2.1 新建项目(scrapy startproject xxx):

  • 新建一个新的爬虫项目;
 scrapy  genspider dd 'dangdang.com'

2.2 明确目标(编写item.py)

  • 明确你要抓取的目标;
class DangdangItem(scrapy.Item):
    # 图书标题
    title = scrapy.Field()
    # 图书价格
    price = scrapy.Field()
    # 图书作者
    author = scrapy.Field()
    # 评论数量
    comment_num = scrapy.Field()
    # 图书出版时间
    publication_date = scrapy.Field()
    # 出版社
    publication_house = scrapy.Field()
    # 图书简介
    introduction = scrapy.Field()
    # 图书图片的url地址
    image_url = scrapy.Field()
    # 下载图片存放位置
    image_path = scrapy.Field()

2.3 制作爬虫(spiders/xxspider.py)

– 制作爬虫, 开始爬取网页;

注意:测试阶段只爬取了5页的数据信息, 当然可以进一步修改最后三行代码;


# -*- coding: utf-8 -*-
import scrapy

from mySpider.items import DangdangItem


class DdSpider(scrapy.Spider):
    name = 'dd'
    allowed_domains = ['dangdang.com']
    start_urls = [
        'http://search.dangdang.com/?key=python',
        # 'http://search.dangdang.com/?key=开发',
    ]

    def parse(self, response):
        books = response.xpath('//ul[@class="bigimg"]/li')

        # from scrapy.shell import inspect_response
        # inspect_response(response, self)

        for book in books:
            item = DangdangItem()
            item['title'] = book.xpath('./a[@class="pic"]/@title').extract_first()
            item['price'] = book.xpath('./p/span[@class="search_now_price"]/text()').extract_first()
            item['author'] = book.xpath(
  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值