一、 Scrapy命令:
(一)全局命令:
格式:Scrapy 命令名 –参数
Scrapy -h 查看命令
1、fetch 命令的作用是查看爬去的过程
–nolog 命令 去除爬去日志信息
格式:Scrapy fetch 网址 --nolog
2、runspider 命令用来运行单独的爬虫文件
格式:进入爬虫文件所在目录 scrapy runsipder 爬虫文件名
3、 shell 命令用来启动scrapy的交互终端(scrapy shell),启动scrapy shell的作用是可以在不启动爬虫项目的情况下对爬去的网站进行调试 和测试
格式:scrapy shell
4、 startproject 命令 用来创建爬虫项目
格式:目录 scrapy startproject 项目名称
5、 version 命令 用来查看对应的scrapy版本信息
格式:scrapy version
6、view 命令 可以实现下载某个网页并用浏览器查看
格式:scrapy view 网址
(二)项目命令:
1、Bench 命令 用来测试本地硬件性能(即每分钟能爬去多少个网页链接)
格式:项目目录 scrapy bench
2、爬虫项目文件夹内容说明:
init.py 爬虫项目的初始化文件
Items.py 目标文件,可以在里面设定要爬去的内容,类似一个容器
Pipelines.py 用于对爬去的内容进行后续处理
Setting.py 设置文件
Spiders 文件夹 爬虫文件夹
3、爬虫项目所在目录 scrapy genspider -l 命令 用来查看爬虫模板,
爬虫模版:
basic 基本爬虫模板 、
crawl 自动爬虫模板 、
CSVfeed 用于处理CSV文件的爬虫模板,
xmlfeed 用于处理xml文件的爬虫模板
4、创建爬虫文件 命令 genspider
格式:爬虫项目目录 scrapy genspider -t 爬虫模板 自定义爬虫名 网址的域名
5、测试爬虫文件 命令 check
格式:爬虫项目目录 scrapy check 爬虫文件名
6、 启动运行爬虫文件 命令 crawl
格式:爬虫项目目录 scrapy crawl 爬虫文件名
7、 展示当前可以使用的爬虫文件 命令 list
格式:爬虫项目目录 scrapy list
8、 突破编辑器直接打开爬虫文件的命令 edit(在window系统中运行不了,可在Linux系统中运行)
格式:scrapy edit 爬虫文件名
9、 获取指定的url网址或爬虫文件并且可以进行相应的处理和分析 命令parse
格式:scrapy parse 网址
二、 Xpath表达式
网址网页源代码分析:
/ 从顶端逐层查找
text() 用于提取标签的文本信息
@ 用于定位标签的属性,提取属性的信息
// 寻找当前页中所有的标签
例1:/html/head/title/text()
例2://li[@class=”hidden-xs”]/a/@herf
三、 爬虫项目编辑顺序
1、 编辑items.py,设置爬去目标,使用scrapy.Field() 创建存储爬去内容的容器
2、 编辑pipelines.py,设置后续的处理,对items.py中存储的信息进行处理
3、 编辑Settings.py ,用于设置配置信息
4、 编辑爬虫
四、 项目文件运行调用顺序:
Items.py 爬虫文件 paplines