scrapy入门

最新推荐文章于 2021-05-26 11:29:44 发布

人魔狗样

最新推荐文章于 2021-05-26 11:29:44 发布

阅读量113

点赞数

分类专栏： scrapy

本文链接：https://blog.csdn.net/qq_41991111/article/details/104694279

版权

1 篇文章 0 订阅

订阅专栏

Scrapy笔记

一、安装scrapy框架:

1.安装scrapy：通过“pip install scrapy”即可安装

2.如果在windows下，还需要安装“pypiwin32“,如果不安装，那么以后运行scrapy项目时就会报错。

3.如果是在ubantu下，还需要安装一下第三方库：“sudo apt-get install python-dev python-pip libxml2-dev libxsltl-dev zlibig-dev lobffi-dev libssl-dev“

二、创建爬虫

1.创建项目：“scrapy startproject 项目名“

2.创建爬虫：进入项目所在的路径，执行命令“ scrapy genspider 爬虫名字爬虫的域名“。注意：爬虫的名字不能和项目名字相同。

三、项目目录结构：

1.items.py:用来存放爬取下来的数据的模型。

2.middlewares.py:用来存放各种中间件的文件。

3.pipelines.py:用来将items的模型存储到本地磁盘中。

4.settings.py:本爬虫的一些配置信息（比如请求头，多久发送一次请求，ip代理池等等）。

5.scrapy.cfg:项目的配置文件。

6.spiders包：放置spider代码的目录.。

Scrapy常用命令：

1.bench:运行测试。

2.fetch:下载指定url的数据。

3.genspider:生成爬虫。

4.setting：获取设置信息。

5.startproject：创建scrapy项目。

6.version：获取scrapy版本信息。

7.view：scrapy会利用电脑的浏览器浏览指定url网页。

8.shell:开启scrapy控制台。

PS：附加anaconda的一些命令：

1.查看conda已安装的第三方库：“conda list“。

2.查看conda存在的虚拟环境：“conda env list“。

3.激活虚拟环境：“activate 虚拟环境名“。

4.安装”pip install 包名”or”conda install 包名”。

关注