Scrapy的安装:
1. scrapy需要安装第三方库文件,lxml和Twisted
2. 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
根据python的版本和位来下载相应的文件,否则安装不成功。
3.下载好文件之后,在DOS命令下pip install 文件的位置\文件名进行安装。安装完成就可以安装:pip install scrappy
还需要安装 win32(启动蜘蛛的时候会提示安装)
pip install pypiwin32
pip install Pillow
Scrappy:是一个应用框架 抽取website的内容Python框架
内置数据选择和抽取的方法: css xpath
Shell交互式方式
支持数据导出格式json xml csv
自动解码
很强大的扩展能力:中间件,管道,扩展
内置中间件“cookie”,session 压缩 认证 缓存 伪装代理,定义爬取的深度。远程控制台
内置了一下通用蜘蛛,
Jsoup: 一个java的爬虫框架
Scrapy的爬虫项目创建,在DOS命令下scrapy startproject 项目名称回车。
查看一下数据文件夹是不创建了:
使用IDEPyCharm打开刚刚创建的文件夹会有以下文件:
Scrappy.cnf整个项目的配置文件
items.py爬取的数据模型在这里定义
middlewares.py中间件的数据存放
pipelines.py 存储数据,处理items的数据
settings.py 相关是设置文件
创建一个爬虫
命令 scrapy genspider 爬虫名 域名
例如:
我创建了一个百度的爬取数据
scrappy runspider 文件路径/文件名 启动蜘蛛
scrapy crawl 爬虫名字
::调用属性和方法
.extract_first(default=’ ’),抽取数据的第一个。可以给你个参数default=’ ’这样的话,当获取的元素不存在的时候,不会报错,返回空,保证了程序不会瘫痪。
attr属性