作者|Bruce H. Cottman, Ph.D. 编译|VK 来源|Towards Data Science
产品生命周期
在过去两年半的工作中,我们开发和维护了几个自然语言处理项目。我们为每个项目中的每个版本控制中心创建了Docker镜像:Dev、Test和Stage。我将详细介绍Docker解决方案来创建生产NLP项目。
代码开发、重构、bug修复和单元测试都是由Dev完成的。在提交Github Dev repo(sitory)之前,代码必须通过单元测试。其他开发团队在合并到Test Github repo(sitory)之前执行代码评审、集成测试。
项目阶段管理(Project stage management)触发从开发人员到Test 存储库的推送。项目发布管理(Project release management)触发从Test 到Stage 存储库的推送。市场发布管理(Marketing release management)触发了从stage到Prod存储库的推送和半自动连续部署(CD)的推出。
什么是Docker
每个项目中有四个不同的版本控制中心:Dev,Test和Stage,Prod。只有需要支持三个不同的Docker镜像,因为最终阶段版本被推送到Prod,一旦Stage版本通过了安全和验收测试。Stage和Prod使用相同的Docker镜像。
Python和R用户希望Jupyter和RStudio Notebook和Nbextensions首选项出现在Docker镜像中。
大多数Dev和所有Test都在本地使用PyCharm进行代码更新、调试和运行工具:单元测试(pytest)、类型检查(mypy)、覆盖率(cove)rage、PEP-8格式(黑色)和代码质量(pylint)。
Github操作用于CI/CD部署。Prod Docker镜像专门用于特定云的安全性、日志记录或计量服务。
注意:云扩展和故障转移管理需要修改。我们这里不讨论这些。
同时使用Docker和Docker Compose
Docker是用于管理应用程序的