一、部署爬虫
打开配置文件
SCRAPY_PROJECTS_DIR=爬虫项目的上一级目录, 也就是`scrapy.cfg`文件所在的上一级目录
然后点击左侧Deploy Project
就会一键部署上去
二、运行爬虫
点击左侧Run Spider
然后选择要运行的服务器、项目、版本、爬虫, 以及要覆盖的配置项、传给爬虫的参数
点击Check CMD
按钮生成命令
然后点击Run Spider
就可以手动运行爬虫了
timer task是添加一个定时任务.
三、查看爬虫运行情况以及日志
点击左侧的Job
按钮, 就可以看到我们所有运行过的任务,
点击蓝色的
Stats
即可查看爬虫运行产生的日志信息点击绿色的
Start
的按钮,可以再次运行爬虫
四、创建定时任务爬虫
在运行爬虫的时候可以配置定时任务爬虫
点击
Timer Tasks
也可以创建定时任务
点击+
号, 配置界面和运行爬虫是一样的
编辑完成以后, 就可以在列表看到我们配置的定时任务爬虫了
五、邮件通知
查看
https://github.com/my8100/files/blob/master/scrapydweb/README_CN.md
六、开启scrapydweb安全认证
在配置文件scrapydweb_settings_v10.py
中
# The default is False, set it to True to enable basic auth for the web UI.
ENABLE_AUTH = True # False是禁用
# In order to enable basic auth, both USERNAME and PASSWORD should be non-empty strings.
USERNAME = '123' # 用户名
PASSWORD = '123' # 密码
开启以后重启服务, 刷新就可以看到需要输入用户名和密码了
七、开启https
在配置文件scrapydweb_settings_v10.py
中
ENABLE_HTTPS = True # True是开启, False关闭
# e.g. '/home/username/cert.pem'
CERTIFICATE_FILEPATH = ''
# e.g. '/home/username/cert.key'
PRIVATEKEY_FILEPATH = ''
八、运行爬虫的默认设置
在配置文件scrapydweb_settings_v10.py
中
SCHEDULE_EXPAND_SETTINGS_ARGUMENTS = False # Run Spider页面是否自动展开settings & arguments选项卡
SCHEDULE_CUSTOM_USER_AGENT = 'Mozilla/5.0' # 调度爬虫时默认的UA
SCHEDULE_USER_AGENT = ['custom', 'Chrome', 'iPhone', 'iPad', 'Android'] # 可选择的UA 列表
SCHEDULE_ROBOTSTXT_OBEY = None # 是否开启检测robots.txt文件
SCHEDULE_COOKIES_ENABLED = None # 是否开启cookie
SCHEDULE_CONCURRENT_REQUESTS = None # 并发请求数
SCHEDULE_DOWNLOAD_DELAY = None # 下载延迟时间
SCHEDULE_ADDITIONAL = "-d setting=CLOSESPIDER_TIMEOUT=60\r\n-d setting=CLOSESPIDER_PAGECOUNT=10\r\n-d arg1=val1" # Run Spider界面自动附加参数
第六、第七、 第八 我都有介绍在另一个博客中
CSDN
说明: