scrapy框架的安装

Scrapy的安装:
1. scrapy需要安装第三方库文件,lxml和Twisted

2. 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/



根据python的版本和位来下载相应的文件,否则安装不成功。

3.下载好文件之后,在DOS命令下pip install   文件的位置\文件名进行安装。
安装完成就可以安装:pip  install  scrappy
还需要安装 win32(启动蜘蛛的时候会提示安装)

pip install pypiwin32


4.Pillow图片下载的库文件,在爬取图片的时候需要安装的库。

pip install Pillow


Scrapy  API地址:https://docs.scrapy.org/en/latest/
Scrappy:是一个应用框架  抽取website的内容Python框架

内置数据选择和抽取的方法: css   xpath
Shell交互式方式
      支持数据导出格式json xml csv
      自动解码
      很强大的扩展能力:中间件,管道,扩展
      内置中间件“cookie”,session  压缩  认证  缓存 伪装代理,定义爬取的深度。远程控制台
      内置了一下通用蜘蛛,
Jsoup: 一个java的爬虫框架

Scrapy的爬虫项目创建,在DOS命令下scrapy startproject  项目名称回车。
 
查看一下数据文件夹是不创建了:
 
使用IDEPyCharm打开刚刚创建的文件夹会有以下文件:


Scrappy.cnf整个项目的配置文件
items.py爬取的数据模型在这里定义
middlewares.py中间件的数据存放
pipelines.py  存储数据,处理items的数据
settings.py 相关是设置文件


创建一个爬虫
命令 scrapy  genspider   爬虫名  域名
例如:
我创建了一个百度的爬取数据
 
scrappy  runspider  文件路径/文件名   启动蜘蛛
scrapy  crawl   爬虫名字
::调用属性和方法
.extract_first(default=’ ’),抽取数据的第一个。可以给你个参数default=’ ’这样的话,当获取的元素不存在的时候,不会报错,返回空,保证了程序不会瘫痪。
attr属性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值