scrapy parse不执行_Scrapy框架初探

最新推荐文章于 2022-09-14 22:16:19 发布

买姑娘的小青蛙

最新推荐文章于 2022-09-14 22:16:19 发布

阅读量1k

点赞数

文章标签： scrapy parse不执行

本文链接：https://blog.csdn.net/weixin_28932617/article/details/113316745

版权

本文介绍了Scrapy爬虫框架的基本使用，包括项目的创建、命令行工具、Spider详解、Request和Response对象以及Settings的配置。Scrapy通过Engine调度控制程序执行和数据流动，Spider中的start_requests方法生成初始请求，parse方法作为默认回调函数处理Response，提取数据。Request对象包含了URL、回调函数等信息，Response对象则携带响应数据和元信息。Settings允许定制爬虫行为，如设置User-Agent、启用Pipeline等。

摘要由CSDN通过智能技术生成

Scrapy基本介绍

scrapy是一种用于爬虫的框架，并提供了相当成熟的模板，大大减少了程序员在编写爬虫时的劳动需要。

Command line tool & Project structure

使用scrapy需要先创建scrapy project，之后再于project文件夹路径下生成spider(爬虫)文件，编写完程序后，再运行爬虫(手动指定保存文件)。以上过程由命令行执行，具体如下：

scrapy startproject
scrapy genspider
scrapy crawl [-o filename]

后面两个命令均要在myproject文件夹(第一个myproject)路径下执行。而由第一个命令创建的scrapy项目结构如下：

myproject/    scrapy.cfg    myproject/        __init__.py        items.py        middlewares.py        pipelines.py        settings.py        spiders/            __init__.py            spider_name.py