scrapy框架的安装

最新推荐文章于 2024-04-24 15:50:50 发布

Road_to_programmers

最新推荐文章于 2024-04-24 15:50:50 发布

阅读量441

点赞数 1

分类专栏： Python

本文链接：https://blog.csdn.net/HongKong_Python/article/details/80232216

版权

Python 专栏收录该内容

41 篇文章 0 订阅

订阅专栏

Scrapy的安装：
1. scrapy需要安装第三方库文件，lxml和Twisted

2. 下载地址：https://www.lfd.uci.edu/~gohlke/pythonlibs/

根据python的版本和位来下载相应的文件，否则安装不成功。

3.下载好文件之后，在DOS命令下pip install 文件的位置\文件名进行安装。
安装完成就可以安装：pip install scrappy
还需要安装 win32（启动蜘蛛的时候会提示安装）

pip install pypiwin32

4.Pillow图片下载的库文件，在爬取图片的时候需要安装的库。

pip install Pillow

Scrapy API地址：https://docs.scrapy.org/en/latest/
Scrappy:是一个应用框架抽取website的内容Python框架

内置数据选择和抽取的方法： css xpath
Shell交互式方式
支持数据导出格式json xml csv
自动解码
很强大的扩展能力：中间件，管道，扩展
内置中间件“cookie”，session 压缩认证缓存伪装代理，定义爬取的深度。远程控制台
内置了一下通用蜘蛛，
Jsoup：一个java的爬虫框架

Scrapy的爬虫项目创建，在DOS命令下scrapy startproject 项目名称回车。

查看一下数据文件夹是不创建了：

使用IDEPyCharm打开刚刚创建的文件夹会有以下文件：

Scrappy.cnf整个项目的配置文件
items.py爬取的数据模型在这里定义
middlewares.py中间件的数据存放
pipelines.py 存储数据，处理items的数据
settings.py 相关是设置文件

创建一个爬虫
命令 scrapy genspider 爬虫名域名
例如：
我创建了一个百度的爬取数据

scrappy runspider 文件路径/文件名启动蜘蛛
scrapy crawl 爬虫名字
：：调用属性和方法
.extract_first(default=’ ’),抽取数据的第一个。可以给你个参数default=’ ’这样的话，当获取的元素不存在的时候，不会报错，返回空，保证了程序不会瘫痪。
attr属性