<scrapy爬虫>爬取quotes.toscrape.com

最新推荐文章于 2024-03-21 18:57:40 发布

孙瑞宇

最新推荐文章于 2024-03-21 18:57:40 发布

阅读量1.4k

点赞数 1

文章标签： python 爬虫操作系统

原文链接：http://www.cnblogs.com/shuimohei/p/10491833.html

版权

本文介绍了如何使用Python的Scrapy框架爬取quotes.toscrape.com网站的数据，包括创建Scrapy项目、定义item、编写爬虫文件、实现数据存储到MySQL和MongoDB、配置settings.py以及运行爬虫的步骤。

摘要由CSDN通过智能技术生成

1.创建scrapy项目

dos窗口输入:

scrapy startproject quote

cd quote

2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义)

import scrapy


class QuoteItem(scrapy.Item):
    # define the fields for your item here like:
    text = scrapy.Field()
    author = scrapy.Field()
    tags = scrapy.Field()

3.创建爬虫文件

dos窗口输入:

scrapy genspider myspider quotes.toscrape.com

4.编写myspider.py文件(接收响应,处理数据)

# -*- coding: utf-8 -*-
import scrapy
from quote.items import QuoteItem


class MyspiderSpider(scrapy.Spider):
    name = 'myspider'
    allowed_domains = ['quotes.toscrape.com']
    start_urls = ['http://quotes.toscrape.com/']

    def parse(self, response):
        for each in response.xpath('//div[@class="quote

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

孙瑞宇

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
<scrapy爬虫>爬取quotes.toscrape.com

1.创建scrapy项目dos窗口输入:scrapy startproject quotecd quote2.编写item.py文件(相当于编写模板,需要爬取的数据在这里定义)import scrapyclass QuoteItem(scrapy.Item): # define the fields for your item ...
复制链接

扫一扫