使用Docker部署Scrapy爬虫
1、目的与步骤
环境:Ubuntu14.04 LTS,爬虫程序使用scrapy开发,功能比较简单,就是下载百度贴吧第一页中所有帖子中的图片。
目的:将基于Scrapy开发的爬虫程序发布到docker容器中。
步骤:
a. 在主机上使用setuptools打包python程序,包括一个运行爬虫的命令行;
b. 定义dockerfile,内容包括安装ssh、pip、setuptools、scrapy,并挂载volume(/data)用来作为下载路径,然后创建镜像;
c. 由镜像启动容器,同时挂载主机目录(爬虫项目目录),然后安装程序;
d. 执行命令开始下载图片。
2、步骤一:打包爬虫程序
前提:在主机上安装pip,使用pip安装setuptools。
主机上的项目目录结构为:
baidutieba
|--baidutieba
| |--spiders
| | |--__ini