爬虫管理工具CrawlLab环境配置及使用

Crawlab

基于Golang的分布式爬虫管理平台,支持多种编程语言以及多种爬虫框架.

文档地址:https://docs.crawlab.cn/zh/
GitHub:https://github.com/crawlab-team/crawlab/blob/master/README-zh.md

Python版本:Python3.6.1
centos版本:centos 7.6

一、安装Docker

1、Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker 。

通过 uname -r 命令查看你当前的内核版本

$ uname -r

2、使用 root 权限登录 Centos。确保 yum 包更新到最新。

$ sudo yum update

3、卸载旧版本(如果安装过旧版本的话)

$ sudo yum remove docker  docker-common docker-selinux docker-engine

4、安装需要的软件包, yum-util 提供yum-config-manager功能,另外两个是devicemapper驱动依赖的

$ sudo yum install -y yum-utils device-mapper-persistent-data lvm2

5、设置yum源

$ sudo yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo

6、可以查看所有仓库中所有docker版本,并选择特定版本安装

$ yum list docker-ce --showduplicates | sort -r

7、安装docker

$ sudo yum install docker-ce
#由于repo中默认只开启stable仓库,故这里安装的是最新稳定版17.12.0
$ sudo yum install <FQPN>  # 例如:sudo yum install docker-ce-17.12.0.ce

8、启动并加入开机启动

$ sudo systemctl start docker
$ sudo systemctl enable docker

9、验证安装是否成功(有client和service两部分表示docker安装启动都成功了)

$ docker version

二、下载镜像

  执行以下命令将 Crawlab 的镜像下载下来。镜像大小大概在几百兆,因此下载需要几分钟时间。

$ docker pull tikazyq/crawlab:latest

三、安装Docker-Compose

  为了方便起见,我们用docker-compose的方式来部署。docker-compose是一个集群管理方式,可以利用名为docker-compose.yml的yaml文件来定义需要启动的容器,可以是单个,也可以(通常)是多个的。

  在安装了 pip 的情况下(Python 3),执行以下命令。(如果提示没有pip,使用【python -m pip install docker-compose】 这种写法)

$ pip install docker-compose

  安装好 docker-compose 后,请运行 docker-compose ps 来测试是否安装正常。正常的应该是显示如下内容。

Name   Command   State   Ports
------------------------------

但是我们如果直接运行请运行 docker-compose ps 的话,会报错:
在这里插入图片描述
所以我们需要先找到配置文件:

$ find -name docker-compose.yml

然后运行

$ docker-compose ps

在这里插入图片描述

  这是没有 Docker 容器在运行的情况,也就是空列表。如果有容器在运行,可以看到其对应的信息。

四、安装并启动 Crawlab

$ docker-compose up -d

待加载结束之后,在浏览器中输入 http://localhost:8080 就可以看到登录界面了
在这里插入图片描述

五、将本地爬虫上传到CrawLab

1、安装crawlab-sdk

pip install crawlab-sdk

2、登录获取 Token

  在使用 CLI 命令行工具之前,我们必须配置登录信息,已确保本地保存从服务端请求回来的 token,作为后续请求的验证令牌。

# 登录并输入参数
crawlab login -u <username> -a <api_address>

# 例子
crawlab login -u admin -a http://localhost:8080/api

  然后输入登录密码。

  如果登录成功,CLI 会将用户名、密码、API 地址和获取到的 Token 保存在本地,供后面使用。
3、上传爬虫
  注意,如果是scrapy项目,一定要在根目录下(即有scrapy.cfg的文件)使用该命令上传文件。且项目要与scrapy项目正常结构保持一致

crawlab upload

在这里插入图片描述
更多的使用方法请参考官方文档平台

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值