Python Scrapy 爬虫简单教程

最新推荐文章于 2024-01-02 10:26:02 发布

VIP文章代码输入中...

最新推荐文章于 2024-01-02 10:26:02 发布

阅读量1.5k

点赞数

文章标签： python 爬虫开发语言 scrapy 深度学习

本文链接：https://blog.csdn.net/m0_59485658/article/details/128973656

版权

Windows安装 Scrapy

$>- pip install scrapy

Linux安装 Scrapy

$>- apt-get install python-scrapy

在开始爬取之前，必须创建一个新的Scrapy项目。进入自定义的项目目录中，运行下列命令：

$>- scrapy startproject mySpider

其中， mySpider 为项目名称，可以看到将会创建一个 mySpider 文件夹，使用命令查看目录结构

$>- tree mySpider

通过Scrapy的Spider基础模版顺便建立一个基础的爬虫。（也可以不用Scrapy命令建立基础爬虫，）

$>- scrapy genspider gzrbSpider dayoo.com

scrapy genspider是一个命令，也是scrapy最常用的几个命令之一。至此，一个最基本的爬虫项目已经建立完毕了.

文件描述：

序列	文件名	描述
1	scrapy.cfg	是整个Scrapy项目的配置文件
2	settings.py	是上层目录中scrapy.cfg定义的设置文件(决定由谁去处理爬取的内容)
3	init.pyc	是__init__.py的字节码文件
4	init.py	作用就是将它的上级目录变成了一个模块，否则，文件夹没有__init__.py不能作为模块导入
5	items.py	是定义爬虫最终需要哪些项 (决定爬取哪些项目)
5	pipelines.py	Scrapy爬虫爬取了网页中的内容后，这些内容怎么处理就取决于

关注