网络爬虫-Scrapy框架--python笔记2

最新推荐文章于 2024-09-18 22:04:52 发布

今天菜里有肉

最新推荐文章于 2024-09-18 22:04:52 发布

阅读量170

点赞数

分类专栏： python数学建模文章标签： python

本文链接：https://blog.csdn.net/weixin_42372186/article/details/105308577

版权

python数学建模专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文详细介绍了Scrapy爬虫的各种命令操作，包括全局命令和项目命令，如fetch、runspider、shell、startproject等，以及Xpath表达式的使用方法，帮助读者快速掌握Scrapy爬虫的使用技巧。

摘要由CSDN通过智能技术生成

一、 Scrapy命令：

（一）全局命令：
格式：Scrapy 命令名 –参数
Scrapy -h 查看命令
1、fetch 命令的作用是查看爬去的过程
–nolog 命令去除爬去日志信息
格式：Scrapy fetch 网址 --nolog
2、runspider 命令用来运行单独的爬虫文件
格式：进入爬虫文件所在目录 scrapy runsipder 爬虫文件名
3、 shell 命令用来启动scrapy的交互终端（scrapy shell），启动scrapy shell的作用是可以在不启动爬虫项目的情况下对爬去的网站进行调试和测试
格式：scrapy shell
4、 startproject 命令用来创建爬虫项目
格式：目录 scrapy startproject 项目名称
5、 version 命令用来查看对应的scrapy版本信息
格式：scrapy version
6、view 命令可以实现下载某个网页并用浏览器查看
格式：scrapy view 网址

（二）项目命令：
1、Bench 命令用来测试本地硬件性能（即每分钟能爬去多少个网页链接）
格式：项目目录 scrapy bench
2、爬虫项目文件夹内容说明：
init.py 爬虫项目的初始化文件
Items.py 目标文件，可以在里面设定要爬去的内容，类似一个容器
Pipelines.py 用于对爬去的内容进行后续处理
Setting.py 设置文件
Spiders 文件夹爬虫文件夹
3、爬虫项目所在目录 scrapy genspider -l 命令用来查看爬虫模板，
爬虫模版：
basic 基本爬虫模板、
crawl 自动爬虫模板、
CSVfeed 用于处理CSV文件的爬虫模板，
xmlfeed 用于处理xml文件的爬虫模板
4、创建爬虫文件命令 genspider
格式：爬虫项目目录 scrapy genspider -t 爬虫模板自定义爬虫名网址的域名
5、测试爬虫文件命令 check
格式：爬虫项目目录 scrapy check 爬虫文件名
6、启动运行爬虫文件命令 crawl
格式：爬虫项目目录 scrapy crawl 爬虫文件名
7、展示当前可以使用的爬虫文件命令 list
格式：爬虫项目目录 scrapy list
8、突破编辑器直接打开爬虫文件的命令 edit（在window系统中运行不了，可在Linux系统中运行）
格式：scrapy edit 爬虫文件名
9、获取指定的url网址或爬虫文件并且可以进行相应的处理和分析命令parse
格式：scrapy parse 网址

二、 Xpath表达式
网址网页源代码分析：
/ 从顶端逐层查找
text() 用于提取标签的文本信息
@ 用于定位标签的属性，提取属性的信息
// 寻找当前页中所有的标签
例1：/html/head/title/text()
例2：//li[@class=”hidden-xs”]/a/@herf
三、爬虫项目编辑顺序
1、编辑items.py，设置爬去目标，使用scrapy.Field() 创建存储爬去内容的容器
2、编辑pipelines.py，设置后续的处理，对items.py中存储的信息进行处理
3、编辑Settings.py ,用于设置配置信息
4、编辑爬虫
四、项目文件运行调用顺序：
Items.py 爬虫文件 paplines