Scrapy实战之爬取网页并保存为json格式文件

本文介绍使用Scrapy爬取特定网页内容,并将其保存为JSON格式文件的过程。首先分析目标网页,然后通过Scrapy创建项目,编写spider.py、items.py、pipeline.py和settings.py,最后运行程序,观察数据成功下载。
摘要由CSDN通过智能技术生成

PS:小编是为了参加大数据技能大赛而学习网络爬虫,对爬虫感兴趣的可以关注我哦,每周更新一篇~(这周迎来第一个粉丝,为了庆祝多发布一篇✌)

👉直奔主题👈

首先,我们来分析目标网页http://www.bookschina.com/kinder/54290000/
在这里插入图片描述
查看网页源代码,搜索关键字的快捷键是(Ctrl+F)
在这里插入图片描述
现在已经找到我们所需的信息块,下面开始go~ go~ go~

开始操作实战

第一步:创建bookstore项目,还是熟悉的三句命令:
(PS:记住是在cmd.exe下执行)

scrapy startproject bookstore
cd bookstore
scrapy genspider store "bookschina.com"

第二步:编写代码
一、 编写spider.py模块

# -*- coding: utf-8 -*-
import scrapy
import time
from scrapy import Request,Selector
from bookstore.items import BookstoreItem


class StoreSpider(scrapy.Spider):
    name = 'store'
    # allowed_domains = ['bookschina.com']
    # start_urls = ['http://bookschina.com/']
    next_url = 'http://www.bookschina.com'
    url = 'http://www.bookschina.com/kinder/54290000/' #初始URL
    # 伪装
    headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64) AppleWebKit/537.36 (KHTML , like Gecko) Chrome/67.0.3396.62 Safari/537.36'}

    def start_requests(self):
        yield Request
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值