111

#scarpy常见指令及其使用
scarpy -h
bench 硬件测试的指令,可以在爬虫项目里面或外面执行,属于项目指令
fetch 直接获取一个网址,直接获取某个网页
genspider与爬虫文件有关,基于一个爬虫模板创建一个爬虫文件
runspider运行一个爬虫,
settings与爬虫配置有关
shell进入交互式页面
startproject创建一个爬虫项目
version显示版本信息
view 打开一个url
目录结构:
核心目录
.cfg文件主要做爬虫项目的配置
进入核心目录,所有的爬虫文件放在spiders目录下
spiders–>init.py初始化文件
核心目录–>init.py初始化文件
–>items.py定义一些爬取目标
–>middlewares.py中间件文件,中间件:爬虫在访问外面时到底是怎样的,加代理服务器
–>pipelines.py 爬后处理的文件,到底是写进文件还是数据输出还是写进数据库
–>settings.py 总体设置的一个文件

编码顺序:
items编写—>爬虫文件–>pipelines–>items文件
settings文件全局起作用。
scrapy中的指令分为:全局指令和项目指令
check项目指令,只有在爬虫项目中
crawl指令,主要是运行某一个爬虫文件
edit指令,
list指令主要看当前爬虫项目下可以使用的爬虫文件
scrapy -h
scrapy fetch http://www.baidu.com

运行爬虫文件
scrapy runspider abcde.py

获得设置文件的相关信息
scrapy settings --get BOT_NAME

启动交互终端
scrapy shell http://www.baidu.com

view 直接在浏览器上爬取网页
bench 测试本地硬件的性能

爬取网页,下载到本地并在浏览器上打开
scrapy view http://news.163.com

测试电脑,每分钟最多可以爬取多少网页
scrapy bench

当前系统中有那些爬虫模板
scrapy genspider -l

创建一个爬虫文件(weiwei后面是域名)
scrapy genspider -t basic weiwei iqianyue.com

测试爬虫文件合同契约
scrapy check weiwei

运行爬虫项目下的某个爬虫文件
scrapy crawl weiwei

不输出日志
scrapy crawl weiwei --nolog

查看当前目录下有哪些文件
scrapy list

获取当前相关的问题
scrapy parse http://www.baidu.com

scrapy parse --spider=weiwei http://news.163.com

如何编写一个爬虫项目,
在命令行里面进行
A创建爬虫项目 scrapy startproject dangdang
B进入当当网爬虫项目 创建一个爬虫文件 scrapy genspider -t basic dd dangdang.com
1)首先编写items.py,写好要爬取的几个属性
2)编写dd.py,设置start_urls.网页的响应都在response里面
3)写好了运行一下使用scrapy crawl dd

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值