scrapy学习小记

最新推荐文章于 2024-07-22 18:27:14 发布

灵左

最新推荐文章于 2024-07-22 18:27:14 发布

阅读量143

点赞数

分类专栏：爬虫 Python scrapy 小记文章标签：爬虫 scrapy python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AaronChen01/article/details/96209498

版权

小记同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

安装wheel
安装lxml
安装PyOpenssl
安装Twisted ：异步框架
安装Pywin32
安装Scrapy

通过 scrapy startproject projectname 创建一个scrapy工程
进入该文件夹：
scrapy genspider baidu www.baidu.com 生成爬虫
scrapy crawl baidu 运行

scrapy shell quotes.toscrape.com 进入命令行交互模式

QuoteItem 处理返回值的数据

scrapy crawl quotes -o quotes.json 将数据输出到quotes.json文件中
scrapy crawl quotes -o quotes.jl 将数据输出到quotes.jl，每一段数据存成一行
-o 输出文件.格式
csv xls Marshall ftp://user:password@ftp.example.com/path/quotes.csv

通过pipeline.py里的配置，可将数据输入到数据库中

Scrapy 命令行详解

Global commands:
● startproject
● genspider
● settings
● runspider
● shell
● fetch
● view
● version
Project-only commands:
● crawl
● check
● list
● edit
● parse
● bench

scrapy选择器用法：
https://docs.scrapy.org/en/latest/topics/selectors.html

scrapy spiders用法：
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。
https://docs.scrapy.org/en/latest/topics/spiders.html
https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spiders.html
scrapy itemPipeline用法：
清洗数据
处理数据：
存入文件/数据库等
https://docs.scrapy.org/en/latest/topics/item-pipeline.html
https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/item-pipeline.html

scrapy downloadMiddleware
下载器中间件是介于Scrapy的request/response处理的钩子框架。是用于全局修改Scrapy request和response的一个轻量、底层的系统。
https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/spider-middleware.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy学习小记

安装wheel安装lxml安装PyOpenssl安装Twisted ：异步框架安装Pywin32安装Scrapy通过 scrapy startproject projectname 创建一个scrapy工程进入该文件夹：scrapy genspider baidu www.baidu.com 生成爬虫scrapy crawl baidu 运行scrapy shell quo...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。