scrapy框架创建爬虫项目

最新推荐文章于 2024-03-13 09:52:01 发布

破晓21

最新推荐文章于 2024-03-13 09:52:01 发布

阅读量347

点赞数

文章标签： scrapy创建爬虫项目

本文链接：https://blog.csdn.net/qq_42796939/article/details/84586156

版权

首先，我们需要先了解一下scrapy。

scrapy是什么？是一个非常强大的python爬虫框架，底层语言使用python实现。既然是框架，肯定已经实现了很多其他的功能，用户只需要将自己的精力放到自己的业务逻辑中即可。多进程、多线程、队列、去重

安装：pip install scrapy

scrapy的工作原理

		引擎（engine）、爬虫（spiders）、调度器（scheduler）、下载器（downloader）、管道（pipeline)

在这里插入图片描述

使用：

（1）创建工程

	scrapy startproject xxx

（2）认识目录结构

	firstbloodpro            工程目录

		firstbloodpro        工程核心目录

			pycache      缓存文件

			spiders          爬虫部分

				pycache  缓存文件

				init.py  包的标记

				lala.py      爬虫文件（*）

			init.py      包的标记

			items.py         定义数据结构的地方（*）

			middlewares.py   中间件（*）

			pipelines.py     管道（*）

			settings.py      爬虫配置文件（*）

		scrapy.cfg           工程的配置文件（一般不用）

（3）生成爬虫文件

	cd firstbloodpro

	scrapy genspider 爬虫名字 网站域名

注释：创建工程的目录最好是非中文地址，因为中文地址可能出现意想不到的错误。

破晓21

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
scrapy框架创建爬虫项目

首先，我们需要先了解一下scrapy。scrapy是什么？是一个非常强大的python爬虫框架，底层语言使用python实现。既然是框架，肯定已经实现了很多其他的功能，用户只需要将自己的精力放到自己的业务逻辑中即可。多进程、多线程、队列、去重安装：pip install scrapyscrapy的工作原理引擎（engine）、爬虫（spiders）、调度器（scheduler）、...
复制链接

扫一扫