scrapydweb的使用

最新推荐文章于 2024-05-26 16:50:09 发布

疯子vs年华

最新推荐文章于 2024-05-26 16:50:09 发布

阅读量1.2k

点赞数

文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/chang995196962/article/details/116199842

版权

一、部署爬虫

打开配置文件

SCRAPY_PROJECTS_DIR=爬虫项目的上一级目录, 也就是`scrapy.cfg`文件所在的上一级目录

然后点击左侧`Deploy Project`

就会一键部署上去

二、运行爬虫

点击左侧`Run Spider` 然后选择要运行的服务器、项目、版本、爬虫, 以及要覆盖的配置项、传给爬虫的参数

点击`Check CMD`按钮生成命令

然后点击`Run Spider`就可以手动运行爬虫了

timer task是添加一个定时任务.

三、查看爬虫运行情况以及日志

点击左侧的`Job`按钮, 就可以看到我们所有运行过的任务,

点击蓝色的 Stats 即可查看爬虫运行产生的日志信息

点击绿色的 Start 的按钮，可以再次运行爬虫

四、创建定时任务爬虫

在运行爬虫的时候可以配置定时任务爬虫

点击Timer Tasks也可以创建定时任务

点击`+`号, 配置界面和运行爬虫是一样的

编辑完成以后, 就可以在列表看到我们配置的定时任务爬虫了

五、邮件通知

查看https://github.com/my8100/files/blob/master/scrapydweb/README_CN.md

六、开启scrapydweb安全认证

在配置文件`scrapydweb_settings_v10.py`中

# The default is False, set it to True to enable basic auth for the web UI.
ENABLE_AUTH = True # False是禁用
# In order to enable basic auth, both USERNAME and PASSWORD should be non-empty strings.
USERNAME = '123' # 用户名
PASSWORD = '123' # 密码

开启以后重启服务, 刷新就可以看到需要输入用户名和密码了

七、开启https

在配置文件`scrapydweb_settings_v10.py`中

ENABLE_HTTPS = True # True是开启, False关闭
# e.g. '/home/username/cert.pem'
CERTIFICATE_FILEPATH = ''
# e.g. '/home/username/cert.key'
PRIVATEKEY_FILEPATH = ''

八、运行爬虫的默认设置

在配置文件`scrapydweb_settings_v10.py`中

SCHEDULE_EXPAND_SETTINGS_ARGUMENTS = False # Run Spider页面是否自动展开settings & arguments选项卡
SCHEDULE_CUSTOM_USER_AGENT = 'Mozilla/5.0' # 调度爬虫时默认的UA
SCHEDULE_USER_AGENT = ['custom', 'Chrome', 'iPhone', 'iPad', 'Android']  # 可选择的UA 列表
SCHEDULE_ROBOTSTXT_OBEY = None # 是否开启检测robots.txt文件
SCHEDULE_COOKIES_ENABLED = None # 是否开启cookie
SCHEDULE_CONCURRENT_REQUESTS = None # 并发请求数
SCHEDULE_DOWNLOAD_DELAY = None # 下载延迟时间
SCHEDULE_ADDITIONAL = "-d setting=CLOSESPIDER_TIMEOUT=60\r\n-d setting=CLOSESPIDER_PAGECOUNT=10\r\n-d arg1=val1" # Run Spider界面自动附加参数