111

最新推荐文章于 2023-01-17 11:01:18 发布

iu_程序员

最新推荐文章于 2023-01-17 11:01:18 发布

阅读量110

点赞数

分类专栏：学习

本文链接：https://blog.csdn.net/qq_35966478/article/details/100902957

版权

学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

#scarpy常见指令及其使用
scarpy -h
bench 硬件测试的指令,可以在爬虫项目里面或外面执行，属于项目指令
fetch 直接获取一个网址，直接获取某个网页
genspider与爬虫文件有关，基于一个爬虫模板创建一个爬虫文件
runspider运行一个爬虫，
settings与爬虫配置有关
shell进入交互式页面
startproject创建一个爬虫项目
version显示版本信息
view 打开一个url
目录结构：
核心目录
.cfg文件主要做爬虫项目的配置
进入核心目录，所有的爬虫文件放在spiders目录下
spiders–>init.py初始化文件
核心目录–>init.py初始化文件
–>items.py定义一些爬取目标
–>middlewares.py中间件文件，中间件：爬虫在访问外面时到底是怎样的,加代理服务器
–>pipelines.py 爬后处理的文件，到底是写进文件还是数据输出还是写进数据库
–>settings.py 总体设置的一个文件

编码顺序：
items编写—>爬虫文件–>pipelines–>items文件
settings文件全局起作用。
scrapy中的指令分为：全局指令和项目指令
check项目指令，只有在爬虫项目中
crawl指令，主要是运行某一个爬虫文件
edit指令，
list指令主要看当前爬虫项目下可以使用的爬虫文件
scrapy -h
scrapy fetch http://www.baidu.com

运行爬虫文件
scrapy runspider abcde.py

获得设置文件的相关信息
scrapy settings --get BOT_NAME

启动交互终端
scrapy shell http://www.baidu.com

view 直接在浏览器上爬取网页
bench 测试本地硬件的性能

爬取网页，下载到本地并在浏览器上打开
scrapy view http://news.163.com

测试电脑，每分钟最多可以爬取多少网页
scrapy bench

当前系统中有那些爬虫模板
scrapy genspider -l

创建一个爬虫文件(weiwei后面是域名)
scrapy genspider -t basic weiwei iqianyue.com

测试爬虫文件合同契约
scrapy check weiwei

运行爬虫项目下的某个爬虫文件
scrapy crawl weiwei

不输出日志
scrapy crawl weiwei --nolog

查看当前目录下有哪些文件
scrapy list

获取当前相关的问题
scrapy parse http://www.baidu.com

scrapy parse --spider=weiwei http://news.163.com

如何编写一个爬虫项目，
在命令行里面进行
A创建爬虫项目 scrapy startproject dangdang
B进入当当网爬虫项目创建一个爬虫文件 scrapy genspider -t basic dd dangdang.com
1）首先编写items.py,写好要爬取的几个属性
2）编写dd.py，设置start_urls.网页的响应都在response里面
3)写好了运行一下使用scrapy crawl dd

iu_程序员

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
111

#scarpy常见指令及其使用scarpy -hbench 硬件测试的指令,可以在爬虫项目里面或外面执行，属于项目指令fetch 直接获取一个网址，直接获取某个网页genspider与爬虫文件有关，基于一个爬虫模板创建一个爬虫文件runspider运行一个爬虫，settings与爬虫配置有关shell进入交互式页面startproject创建一个爬虫项目version显示版本信息...
复制链接

扫一扫