python代码爬取html网页之scrapy框架

最新推荐文章于 2024-06-22 16:33:22 发布

极客飞人

最新推荐文章于 2024-06-22 16:33:22 发布

阅读量2k

点赞数 2

文章标签： python scrapy

本文链接：https://blog.csdn.net/qq_43669937/article/details/87620997

版权

本文介绍了scrapy爬虫框架，它是一个用于专业网络爬虫的工具，能够处理网站级爬虫任务。文章涵盖了scrapy的安装、常用命令、框架结构，并详细讲解了Response类、Requests类和Item类的用途。

摘要由CSDN通过智能技术生成

scrapy是个能够帮助用户实现专业网络爬虫的爬虫框架，不同于小编之前介绍的requests、Beautifulsoup、re这些函数功能库，可实现网站级爬虫，但对于处理js、提交表单、应对验证码等功能还有望扩展。

scrapy爬虫框架的安装方法与其它第三方库无区别

#在cmd或anaconda prompt上运行即可
pip install scrapy

#scrapy命令行格式
scrapy <command> [options] [args]

命令	说明
scrapy startproject <name> [dir]	创建一个新爬虫项目，自动生成一系列文件目录，name指定项目名称
scrapy genspider [option] <name> <domain>	创建一个爬虫，domain指定所要爬取的网页url,option是可选命令操作符，name指定爬虫名称
scrapy settings [option]	获取爬虫配置信息，option是可选命令操作符
scrapy runspider [option] <spider_file>	运行爬虫程序，option是可选命令操作符,spider_file指定需要运行的文件，要有py后缀（旧版本用的是scrapy crawl <spider>）

关注