Scrapy框架基础使用

1、流程框架
 

 

2、在命令行中输入scrapy,会有scrapy常见命令参数

 

在命令中输入scrapy startproject quote创建一个叫quote的项目

 

cd到创建好的项目目录中,然后执行scrapy genspider quotes quotes.toscrape.com,创建spider,指定spider名称--->quotes,
指定spider抓取的网址-->quotes.toscrape.com
 

 

这是一个scrapy框架默认目录结构
scrapy.cfg --> 配置文件,指定settings配置文件路径
quote/ ---> 该项目的python模块,之后您将在此加入代码。
quote/items.py --> 用来保存数据接口
quote/middlewares.py --> 存储中间件
quote/pipelines.py --> 项目中的pipelines文件
quote/settings.py --> 定义一些配置信息
quote/spiders/ --> 放置spider代码的目录
 
3、在命令行中输入scrapy crawl quotes,会输出一些配置信息

 

scrapy还有一个命令行调试模式,直接在命令行执行scrapy shell quotes.toscrape.com

 

extract_first是输入第一个匹配的,是字符串,extract是匹配有多个结果的,输出列表类型

 

执行scrapy crawl quotes -o quotes.json可以保持到本地文件,还支持quotes.jl .csv ,还有支持向ftp传输数据
scrapy crawl -o ftp://user:password@ftp.server.com/path/quotes.csv
使用-o是可以指定保持需要的文件格式,这个保持方法scrapy都已经集成好了
 
4、抓取了一个网址先测试scrapy,具体代码请参考GitHub
https://github.com/watchxu/python/tree/master/ScrapyQuotes
 

转载于:https://www.cnblogs.com/watchslowly/p/9238048.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值