scrapy hello world

最新推荐文章于 2022-09-13 11:26:47 发布

eiffel_0311

最新推荐文章于 2022-09-13 11:26:47 发布

阅读量1.7w

点赞数

分类专栏：爬虫练习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eiffel_0311/article/details/88942228

版权

练习同时被 2 个专栏收录

17 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

1. 安装：
pip install Scrapy
２. 新建工程
scrapy startproject myspider
３. 测试
spiders 目录下新author_spider.py:

import scrapy


class AuthorSpider(scrapy.Spider):
    name = 'author'

    def start_requests(self):
        urls = ['http://quotes.toscrape.com/']
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        # follow links to author pages
        for href in response.css('.author + a::attr(href)').extract():
            yield scrapy.Request(url=response.urljoin(href), callback=self.parse_author)

        # follow pagination links
        for href in response.css('li.next a::attr(href)').extact():
            yield scrapy.Request(url=response.urljoin(href), callback=self.parse)

4. 结果输出到json
scrapy crawl author -o author.json

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy hello world

1. 安装：pip install Scrapy２. 新建工程scrapy startproject myspider３. 测试spiders 目录下新author_spider.py:import scrapyclass AuthorSpider(scrapy.Spider): name = 'author' def start_requests(sel...
复制链接

扫一扫

专栏目录

博客等级

码龄15年

59
原创

36
点赞

75
收藏

29
粉丝

关注

私信

热门文章

分类专栏

elasticsearch 1篇
图解 4篇
clickhouse 1篇
spark 3篇
算法 1篇
code demo 3篇
docker 1篇
ruby 8篇
scala 9篇
linux 1篇
python
hive 6篇
postgres
flume 2篇
练习 17篇
爬虫 4篇
其他 1篇

最新评论

短网址简介
skey123123: zzdwz点cn的短网址，免费接口API生成。
IK 分词器空格支持
qq_42630566: 你好，这个第一张图截取的不完整啊！后面|后面是什么呢？然后我后面的没加分词分出来的还是不能完整保留带空格的术语词。
个人建站基本流程
前端宋: 关于腾讯云服务器选择，一看平台，再看配置，最后是机型，我看了网上这篇博文，很全，http://www.aliyunbc.com/newsinfo/1157113.html
redash on spark-thriftserver
面壁者-肖叮: host填什么？
个人建站基本流程
我是海贼王路飞啊: 博主辛苦了！但是这篇文章很多地方没讲清楚。比如说怎样进入命令行模式，怎样搭建数据库等。我摸索了很久，还是没能弄好。最终我还是使用腾讯云开源应用中心(https://app.cloud.tencent.com)，对我这样计算机知识不够丰富的比较友好。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。