python代码爬取html网页之scrapy框架

本文介绍了scrapy爬虫框架,它是一个用于专业网络爬虫的工具,能够处理网站级爬虫任务。文章涵盖了scrapy的安装、常用命令、框架结构,并详细讲解了Response类、Requests类和Item类的用途。
摘要由CSDN通过智能技术生成

scrapy 爬虫框架

scrapy是个能够帮助用户实现专业网络爬虫的爬虫框架,不同于小编之前介绍的requests、Beautifulsoup、re这些函数功能库,可实现网站级爬虫,但对于处理js、提交表单、应对验证码等功能还有望扩展。

安装

scrapy爬虫框架的安装方法与其它第三方库无区别

#在cmd或anaconda prompt上运行即可
pip install scrapy
命令执行
#scrapy命令行格式
scrapy <command> [options] [args]
命令 说明
scrapy startproject <name> [dir] 创建一个新爬虫项目,自动生成一系列文件目录,name指定项目名称
scrapy genspider [option] <name> <domain> 创建一个爬虫,domain指定所要爬取的网页url,option是可选命令操作符,name指定爬虫名称
scrapy settings [option] 获取爬虫配置信息,option是可选命令操作符
scrapy runspider [option] <spider_file> 运行爬虫程序,option是可选命令操作符,spider_file指定需要运行的文件,要有py后缀(旧版本用的是scrapy crawl <spider>)
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值