scrapy爬虫完整的代码实例

最新推荐文章于 2024-08-16 21:43:10 发布

「已注销」

最新推荐文章于 2024-08-16 21:43:10 发布

阅读量2.4k

点赞数 1

分类专栏： scrapy 文章标签： python scrapy 爬虫数据清洗

本文链接：https://blog.csdn.net/bizcatt/article/details/88824467

版权

本文提供了一个Scrapy爬虫的详细步骤，包括新建工程、在`quotes_spider.py`中编写爬虫代码、在`items.py`定义数据结构、在`pipelines.py`中实现数据清洗功能，以及在`settings.py`中调整配置。通过命令行执行爬虫，实现数据抓取和清洗。

摘要由CSDN通过智能技术生成

新建工程

scrapy startproject tutorial

进入tutorial目录，在spider下面新建quotes_spider.py

import scrapy
from ..items import QuotesItem

#coding:utf-8

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    allowed_domain = "toscrape.com"

    def start_requests(self):
        for i in range(1,2):
            url = "http://quotes.toscrape.com/page/" + str(i) + "/"
            yield scrapy.Request(url=url,callback=self.parse)


    def parse(self, response):
        item = QuotesItem()
        for quote in response.css('div.quote'):
            item['text'] = quote.css('span.text::text').get(),
            item['author'] = quote.css('small.author::text').get(),
            item['tags'] = quote.css('div.tags a.tag::text').getall()
            yield item