Scrapy实战之爬取网页并保存为json格式文件

最新推荐文章于 2023-07-20 03:13:47 发布

爬虫小彪

最新推荐文章于 2023-07-20 03:13:47 发布

阅读量2.2k

点赞数 6

分类专栏：爬虫文章标签： python xpath json

本文链接：https://blog.csdn.net/qq_42803848/article/details/103857167

版权

本文介绍使用Scrapy爬取特定网页内容，并将其保存为JSON格式文件的过程。首先分析目标网页，然后通过Scrapy创建项目，编写spider.py、items.py、pipeline.py和settings.py，最后运行程序，观察数据成功下载。

摘要由CSDN通过智能技术生成

PS：小编是为了参加大数据技能大赛而学习网络爬虫，对爬虫感兴趣的可以关注我哦，每周更新一篇~（这周迎来第一个粉丝，为了庆祝多发布一篇✌）

👉直奔主题👈

首先，我们来分析目标网页http://www.bookschina.com/kinder/54290000/
在这里插入图片描述
查看网页源代码，搜索关键字的快捷键是（Ctrl+F）

现在已经找到我们所需的信息块，下面开始go~ go~ go~

开始操作实战

第一步：创建bookstore项目，还是熟悉的三句命令：
（PS：记住是在cmd.exe下执行）

scrapy startproject bookstore

cd bookstore

scrapy genspider store "bookschina.com"

第二步：编写代码
一、编写spider.py模块

# -*- coding: utf-8 -*-
import scrapy
import time
from scrapy import Request,Selector
from bookstore.items import BookstoreItem


class StoreSpider(scrapy.Spider):
    name = 'store'
    # allowed_domains = ['bookschina.com']
    # start_urls = ['http://bookschina.com/']
    next_url = 'http://www.bookschina.com'
    url = 'http://www.bookschina.com/kinder/54290000/' #初始URL
    # 伪装
    headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64) AppleWebKit/537.36 (KHTML , like Gecko) Chrome/67.0.3396.62 Safari/537.36'}

    def start_requests(self):
        yield Request