如何将 InfoSec、Compliance 集成到持续交付流水线中

最新推荐文章于 2024-02-02 16:09:33 发布

软件供应链安全

最新推荐文章于 2024-02-02 16:09:33 发布

阅读量555

点赞数

本文来自作者邸富杰在 GitChat 上分享「如何将 InfoSec、Compliance 集成到持续交付流水线中」，「阅读原文」查看交流实录。

「文末高能」

编辑 | 哈比

Setup

“负责安全审查的部门不会让我们这么做的”，这通常是组织推进 DevOps 转型中遭遇的最棘手的问题，尤其对于一些各种流程相当健全的巨无霸公司。

本人并不是 infosec 与 compliance 方面的专家，但有幸在推进企业内部 devops 转型的过程中，尤其在搭建持续交付流水线的过程中被安全部门无情的 challenge 过二次，于是乎对一些应对安全审计的流程以及所需准备的材料有了一些了解。

我把经历的一切以及应对策略记录了下来分享给大家，希望大家可以得到一些启发，欢迎拍砖。

痛点

一个公司的信息安全部门往往被公司赋予至高无上的权力，可以直接决定你的新服务或功能是否可以按你的节奏上线。

《凤凰项目》一书中描述的那个黑色文件夹里面定义了多达数十页的信息安全的相关流程，想想都会头大，如果你没有那么走运，身边没有一个像 Eric 那样的人物罩着，我劝你还是小心不要招惹他们。

（注：《凤凰项目》这本书主要讲的是 Bill 带领的团队在 Eric 协助下如何改进 IT 运维、促进业务提升，并最终使得公司起死回生的故事。过程中 Eric 做为转型顾问帮助 Bill 解决了很多价值流，反馈环以及信息安全的问题。）

一旦被他们盯上你就麻烦了，不但你的新功能被 block 到那，而且你需要被迫阅读大量的安全部门提供的合规文档，然后就是准备各种材料等待安全部门审查，接下来就是无休止的 meeting, 你懂的。

如果你服务于一家跨国企业，那么你就惨了，负责安全审计的同事一般是个老美或者生活在美帝的老印，所以不但要忍受时差熬夜开会，回答各种稀奇古怪的问题，有时还要忍受老印滔滔不绝的讲个不停，其实你根本不知道他在说什么，最后他还会丢给你一句 “make sense？”。

刚好我遇到的是后者，而且是两次，可见我的心智已经足够成熟与坚挺。

问题来了

言归正传，总结一下他们关心的无非就是下面几个问题：

如何保证你的新功能的代码有没有引入漏洞？
如何保证你的新功能所引用的第三方代码库没有引入漏洞？
迁出源码到 CI（持续集成） server 上后，如何保证源代码的安全？（a. 只有开发人员可以提交代码 b. 代码不会被泄漏）
如何审计每一次部署？
如何做到变更管理？
pipeline 的权限管理是怎么做的？

如果你还遇到其他的问题，欢迎来 Chat！

应对策略

“如何保证你的新功能的代码有没有引入漏洞？”

静态漏洞扫描

在我们的交付流水线中通常会有一个步骤叫做静态代码扫描，来帮助我们分析源代码，找出代码存在的潜在缺陷，未使用的代码，复杂的表达式，重复的代码等。

同样对于安全性方面的漏洞，也可以通过源码分析来解决部分问题，由于本人对 ruby 技术栈有丰富的经验，下面就来看一个基于 ruby on rails 框架的工具类项目的例子，其中引入了 brakeman 进行静态代码扫描以便分析安全隐患。

如下图所示像 SQL Injection, Redirect 之类的漏洞会及时的被 detect 到，通过分析 brakeman 的输出结果，build 脚本可以按照项目自身的要求来判断是否让本次 build 失败。

关于 brakeman 详细信息请看这里 https://github.com/presidentbeef/brakeman，我 google 了 top10 的扫描工具以供大家参考。

另外，对于企业中的安全扫描，大部分情况下安全部门会提供一些 library 来帮助扫描代码中的常规漏洞，或者安全部门会要求开放代码仓库，由他们的人来完成安全检查。

我接触到的做的比较好的方式是这样做的：安全部门会以 API 的形式将安全服务暴露给团队，这种情况下你需要做的只是实现一些自动化安全测试来调用安全部门的 API，然后通过判断 API 的结果来判断是否通过安全扫描，最后将这些集成到你的交付流水线就 OK 了。

动态安全监控

有一些漏洞是没有办法通过静态代码扫描分析出来的，例如你的服务有可能非常的容易被黑客攻击而导致瘫痪，这种情况下就只能由线上的监控系统来 monitoring 了。

监控系统会按照团队预制的行为来评判线上系统，一旦发现线上服务有不符合预期的行为，那么监控系统会尽可能完整的保存现场所有证据，同时发出告警，这种方式很容易发现服务有没有被植入 malicious code 或 malicious app 攻击。

能否及时有效的发现线上服务的故障取决于定义的 metrics 是否能够覆盖相关问题。

没有比较就没有伤害。我们看到 facebook 的监控系统已经积累了 100 多万的 metrics 来保证 facebook 提供的服务正常运行，这还是 2 年前的数字。

我之前服务的公司，主要系统的 metrics 量也有几十万个，所以要鼓励团队收集尽量多的 metircs, 如果一时做不到 “足够多”，那么至少要保证遇到一次问题，完成相关问题监控的 metrics, 从而保证不被同样的问题再次打败。

然后就是需要整理一下相关联的关键指标，把关系比较紧密的做成 dashborad 以便于综合分析比较，同时也方便查看历史数据与评估未来趋势。推荐的工具是 grafana, 如下图所示这是一个 network 相关指标的 dashboard，如果我们发现在当前的连接数突然大幅增加或者 In e Out 两条曲线差值过大，可能你就要去查看一下到底发生了什么事情。

如果你所在的公司比较高大上，能够提供 self-service 的线上安全服务以及监控框架，那么你所需要做的只是实现相关的 metrics，安全部门的监控系统会帮你实时监测，发现在漏洞当然也会通知你。

“如何保证你的新功能所引用的第三方代码库没有引入漏洞？”

软件开发不可能从零做起，开发过程中肯定会用到一些第三方的代码库来帮助我们加快开发进度，但某一些第三方的代码库确实存在一些漏洞，像 openssl 早期版本也被攻击者利用过。

这个问题对于在企业中安全审查就比较简单了，安全部门通常会有一个很长的黑名单，清晰的标注了文件名与版本号，只要不用黑名单中的包就可以轻松过关。对于一些比较 “正规” 的公司来说更是容易。

往往这些公司都会拥有自己的私有仓库，私有仓库中的包都是经过安全部门鉴定过的，产品代码中引用的包只能从私有仓库中下载就可以了，从根本上避免了第三方库的安全问题。下图是一个 maven 与私有仓库交互的示意图：

“会迁出源码到 CI server 上，如何保证代码的安全？（a. 只有开发人员可以提交代码；b. 代码不会被泄漏）”

关于这个问题，首先我们要保证持续交付流水线为了迁出源代码所用到 functional ID 对版本仓库只有只读权限，这样的话即使 CI server 或者 pipeline 被黑，也会避免源代码遭到破坏的风险。

另外需要注意的是 build 完成后要及时清理 CI server 的 workspace 来保证源码不在 server 上长时间保存。

接下来就是保证 server 的安全性，关于 sever 的安全管理很多实践，我们常用的就是每隔三个月更改一次密码。

“如何审计每一次部署？”

答案很简单，就是 log everything. 安全部门关注的是 — 谁？在什么时候？部署了哪个版本的 code？为了 fix 什么样的问题或发布什么新功能？

通常情况下，每次代码发布我们都会在变更系统上提交一个 ticket, 用来描述我需要使用哪个版本的代码以及简单描述该版本的新功能或 fix 的问题，一方面用于自动部署工具根据这个 ticket 的描述抓取相关版本的文件。

另一方面也可以做为版本变更的依据，一旦部署完成后线上系统出现故障，可以迅速定位是哪个版本有问题，而且通过查看变更系统的历史可以知晓上一次可以正常运行的版本，一旦发现总是可以做到快速的回滚。

另外就是 pipeline 本身的每一个阶段 — build，test，deploy…，只要有产出的 log 都尽量在 ticket 上加一个 comment, 方便跟踪整个过程，当然如何你已经搭建好集中化的日志收集管理服务，可以把所有相关 log 收集到那里，然后跟变更系统的 ticket 做一个关联，这样负责 audit 的同事就可以很容易的获得他想要的所有信息了。

推荐的集中式日志管理工具当然就是 ELK 或者 graylog。下图是我们的一个变更 ticket 的 log 信息。