爬虫部署到Docker 中的方法 和案例

爬虫部署到Docker

1. 打包所需模块

在项目目录下创建一个 名为 requirements 的文件,文件内记录本项目用到的模块,如有特殊需求可设置模块版本号,例如:

scrapy
scrapy-redis
pymysql

2. 创建Dockerfile文件

Dockerfile 文件用于设定Docker初始化

$ touch Dockerfile
$ vim Dockerfile

Dockerfile 内容编辑

FROM python:3.7
MAINTAINER Zok "362416272@qq.com"
ENV PATH /usr/local/bin:$PATH
ADD . /code
WORKDIR /code
RUN pip3 install -r requirements
CMD scrapy crawl test
  • FROM 指定使用哪个镜像源

  • MAINTAINER 设置作者名与联系邮箱

  • ENV 是环境变量设置,将/usr/local/bin:$PATH赋值给PATH,即增加/usr/local/bin这个环境变量路径。

  • ADD是将本地的代码放置到虚拟容器中。它有两个参数:第一个参数是.,代表本地当前路径;第二个参数是/code,代表虚拟容器中的路径,也就是将本地项目所有内容放置到虚拟容器的/code目录下,以便于在虚拟容器中运行代码

  • WORKDIR是指定工作目录,这里将刚才添加的代码路径设成工作路径。这个路径下的目录结构和当前本地目录结构是相同的,所以我们可以直接执行库安装命令、爬虫运行命令等。

  • RUN 指令告诉docker 在镜像内执行命令,安装了什么。。。

  • CMD是容器启动命令。在容器运行时,此命令会被执行。在这里我们直接用scrapy crawl test来启动爬虫。

3. 调整数据库连接地址

通常我们在测试的时候填写连接的本地数据库(这样在服务器docker上是访问不了的)需要填写公网或服务器内外访问数据库连接地址

4. 构建镜像

  • 构建
$ docker build -t MySpider:latest .

命名格式: 仓库名:标签

  • 检查 是否构建成功
$ docker images
  • 运行测试
$ docker run 镜像名

5. 推送DockerHub

DockerHub 类似GitHub 你懂的, 没有账号需要注册一个 传送门

如果没有登陆,要先登陆docker

$ docker login  

必须要先设置镜像标签才能推送

$ docker tag 本地的镜像名 注册用户名/自己起的hup镜像名

push到Hub上

$ docker push 注册用户名/自己起的hup镜像名

完成后可以在网站上看到你推送的镜像了

6. 服务器运行镜像

进入服务器 [在安装了docker的情况下] 私有项目,服务器上也需要登陆docker

$ docker run 注册用户名/自己起的hup镜像名

本地调试与修改镜像

vim下载安装

如果你用我上面的方法安装,是没有vim的需要额外安装

进入交互式镜像

$ docker run -i -t 镜像名 /bin/bash

在项目同级目录运行

$ apt-get update
$ apt-get install vim

保存修改

!!要保存时,要另外打开一个终端!进行保存操作

1 获取镜像ID

$ docker ps

2 提交保存

$ docker commit 查到的id 提交命名:tag
zerg    基于docker的分布式爬虫服务特性多机多 IP,充分利用 IP 资源服务自动发现和注册(基于 etcd 和 registrator)负载均衡服务端客户端通信基于 gRPC,支持多种编程语言的客户端可设置抓取超时支持 GET、HEAD、POST 方法支持自定义 header如何部署第一步:配置 etcd我把 etcd 容器化了,并开发了脚本使得部署 etcd cluster 非常容易,见 github.com/huichen/etcd_docker为了容灾,请至少在三台服务器上运行 etcd 实例。为了方便调用,你可以固定 etc endpoint 的端口号,并在所有机器上手工添加 etcd host 的 hostname。第二步:启动 registrator 服务发现程序你需要在集群的每一台服务器上都运行 registrator,这使得我们可以自动发现和注册分布式服务docker run -d --name=registrator --net=host --volume=/var/run/docker.sock:/tmp/docker.sock \   gliderlabs/registrator etcd://<etcd 接入点的 ip:port>/services请把上面的 etcd 接入点换成你的 etcd 地址。第三步:部署 zerg 服务进入 service_container 子目录,然后运行./build_docker_image.sh这会生成 unmerged/zerg 容器。然后在集群的每台服务器上启动容器:docker run -d -P unmerged/zergregistrator 会自动注册这些服务到 etcd。如果单机有多个 IP,你可以单机启动多个容器,并在 -P 分别指定 IP。第四步:调用样例代码进入 examples 目录,运行go run zerg_crawl.go --endpoints http://<你的 etcd host:ip> --url http://taobao.com可选步骤1、重新生成 protobuf serviceprotoc protos/crawl.proto --go_out=plugins=grpc:protos -I protos/2、本地测试启动本地服务。进入 service_container 目录,然后运行go run service.go然后进入 examples 目录,运行go run single_machine_crawl.go --url http://taobao.com 标签:Zerg
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值