python——爬虫框架scrapy（数据挖掘）

最新推荐文章于 2022-07-31 08:54:48 发布

Walter Sun

最新推荐文章于 2022-07-31 08:54:48 发布

阅读量575

点赞数

分类专栏： Python 爬虫数据挖掘 python从入门到精通文章标签： python

本文链接：https://blog.csdn.net/Soul_Programmer_Swh/article/details/89505663

版权

Scrapy简介

Scrapy是一种用于抓取网站和提取结构化数据的应用程序框架，可用于广泛的有用应用程序，如数据挖掘，信息处理或历史存档。

尽管Scrapy最初是为网络抓取而设计的，但它也可以用于使用API（例如Amazon Associates Web Services）或作为通用网络爬虫来提取数据。

漫画示例蜘蛛

这是一个蜘蛛的代码示例，它在网页http://quotes.toscrape.com上删除着名的引号：

import scrapy


class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = [
        'http://quotes.toscrape.com/tag/humor/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.xpath('span/small/text()').get(),
            }

        next_page = response.css('li.next a::attr("href")').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)

将它放在一个文本文件

最低0.47元/天解锁文章

Walter Sun

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
python——爬虫框架scrapy（数据挖掘）

Scrapy简介Scrapy是一种用于抓取网站和提取结构化数据的应用程序框架，可用于广泛的有用应用程序，如数据挖掘，信息处理或历史存档。尽管Scrapy最初是为网络抓取而设计的，但它也可以用于使用API（例如Amazon Associates Web Services）或作为通用网络爬虫来提取数据。漫画示例蜘蛛为了向您展示Scrapy带来的内容，我们将以最简单的方式运行蜘蛛，向您介绍S...
复制链接

扫一扫