scrapydweb的使用

一、部署爬虫

打开配置文件

SCRAPY_PROJECTS_DIR=爬虫项目的上一级目录, 也就是`scrapy.cfg`文件所在的上一级目录

然后点击左侧Deploy Project

就会一键部署上去

二、运行爬虫

点击左侧Run Spider 然后选择要运行的服务器、项目、版本、爬虫, 以及要覆盖的配置项、传给爬虫的参数

点击Check CMD按钮生成命令

然后点击Run Spider就可以手动运行爬虫了

timer task是添加一个定时任务.

三、查看爬虫运行情况以及日志

点击左侧的Job按钮, 就可以看到我们所有运行过的任务,

点击蓝色的 Stats 即可查看爬虫运行产生的日志信息

点击绿色的 Start 的按钮,可以再次运行爬虫

四、创建定时任务爬虫

  1. 在运行爬虫的时候可以配置定时任务爬虫

  2. 点击Timer Tasks也可以创建定时任务

点击+号, 配置界面和运行爬虫是一样的

编辑完成以后, 就可以在列表看到我们配置的定时任务爬虫了

五、邮件通知

查看https://github.com/my8100/files/blob/master/scrapydweb/README_CN.md

六、开启scrapydweb安全认证

在配置文件scrapydweb_settings_v10.py

# The default is False, set it to True to enable basic auth for the web UI.
ENABLE_AUTH = True # False是禁用
# In order to enable basic auth, both USERNAME and PASSWORD should be non-empty strings.
USERNAME = '123' # 用户名
PASSWORD = '123' # 密码

开启以后重启服务, 刷新就可以看到需要输入用户名和密码了

七、开启https

在配置文件scrapydweb_settings_v10.py

ENABLE_HTTPS = True # True是开启, False关闭
# e.g. '/home/username/cert.pem'
CERTIFICATE_FILEPATH = ''
# e.g. '/home/username/cert.key'
PRIVATEKEY_FILEPATH = ''

八、运行爬虫的默认设置

在配置文件scrapydweb_settings_v10.py

SCHEDULE_EXPAND_SETTINGS_ARGUMENTS = False # Run Spider页面是否自动展开settings & arguments选项卡
SCHEDULE_CUSTOM_USER_AGENT = 'Mozilla/5.0' # 调度爬虫时默认的UA
SCHEDULE_USER_AGENT = ['custom', 'Chrome', 'iPhone', 'iPad', 'Android']  # 可选择的UA 列表
SCHEDULE_ROBOTSTXT_OBEY = None # 是否开启检测robots.txt文件
SCHEDULE_COOKIES_ENABLED = None # 是否开启cookie
SCHEDULE_CONCURRENT_REQUESTS = None # 并发请求数
SCHEDULE_DOWNLOAD_DELAY = None # 下载延迟时间
SCHEDULE_ADDITIONAL = "-d setting=CLOSESPIDER_TIMEOUT=60\r\n-d setting=CLOSESPIDER_PAGECOUNT=10\r\n-d arg1=val1" # Run Spider界面自动附加参数

第六、第七、 第八 我都有介绍在另一个博客中  

CSDN

说明:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值