永结无间Ⅴ--AI 针对 CrowdStrike 的测试计划

本文链接：https://blog.csdn.net/RamendeusStudio/article/details/140771238

我们从人类工程师和测试人员那里听说了很多有关 Crowdstrike 问题的消息——但令人惊讶的是，我们还没有听到人工智能的想法。

许多人，尤其是工程师和软件测试人员，迅速批评 CrowdStrike 测试不足。由于缺乏信息和背景，这些人开始利用这一事件来推动议程，例如“大公司应该雇用更多测试人员”，或自我宣传“我会发现这个问题”，或“应该进行更多测试”（事后看来）等最无用的评论。一些人建议进行更多分阶段和增量推出，而另一些人则主张手动、人工评估更新，推迟对抗黑客所需的实时修复。

CrowdStrike 分享了事件发生前测试程序的一些细节，包括：

1. 在临时环境中进行模板类型压力和模糊测试
2. 内容验证器检查（尽管错误允许有问题的内容通过）
3. 了解 2024 年 4 月 8 日至 24 日期间是否有过类似的成功部署

他们以前的测试计划比大多数批评者使用的计划更全面。讽刺的是，测试社区中大多数直言不讳的人甚至没有利用模糊测试等技术，也没有对自己的产品进行那么多测试。但是，测试人员就是测试人员。

CrowdStrike 已发现内容验证器中存在一个错误，该错误本应能发现此问题。因此，可以说，他们进行了足够的测试 — 但测试中存在问题。而且，该测试应该得到更好的测试。测试代码中的错误很常见，因为它们通常不是以与产品代码相同的严格程度编写的。存在一个“自上而下”的问题，即谁或什么在测试测试。

CrowdStrike 目前正在实施一系列额外的测试覆盖范围和流程，其中包括：

1. 改进快速响应内容测试
2. 增强内容验证器
3. 改进错误处理
4. 交错部署策略
5. 增强监控
6. 第三方验证
7. 增强客户控制
8. 提高透明度

我们生活在实用人工智能时代。因此，出于好奇，我做了一件似乎很少有人做过的事情，并向现成的人工智能询问它的想法。虽然他们更新的测试计划听起来很全面，但我还是向 Claude.ai 询问了它的测试建议。也许并不令人意外的是，人工智能生成的计划比许多人类建议更复杂，可能比 CrowdStrike 更新的公开测试计划更好。它绝对比我在公共领域看到的任何人类提出的建议都更好、更有建设性。甚至比我自己的建议还要好。

我会分享完整的测试计划，但是，这是一个很长的文档，测试计划读起来可能很无聊。上次我生成并分享了一个有用的测试计划，但我在 ChromeOS 项目的 V1 上遇到了困难。无论如何，花几分钟尝试使用 AI 自行生成测试计划可能也是最好的选择。

快速提示：您将如何测试以避免此类问题？CrowdStrike 通过两种方式向我们的传感器提供安全内容配置更新：***传感器内容，直接随我们的传感器一起提供；快速响应内容*，旨在以操作速度响应不断变化的威胁形势。周五的问题涉及快速响应内容更新，其中存在未检测到的错误。后续提示：还有其他问题吗？您可以进行哪些额外测试来避免这些数据文件更新出现任何问题？

AI 初始测试计划摘要

差异测试：将系统行为与新更新与先前版本进行比较，自动标记任何差异以供人工审核模糊测试：使用自动模糊测试技术生成各种输入，测试系统如何处理意外或格式错误的数据在受控环境中进行 A/B 测试：运行并行系统，一个有更新，一个没有更新，比较长期内的性能、准确性和资源使用情况基于机器学习的异常检测：在正常系统行为上训练模型使用这些模型来检测更新后的异常模式形式验证：应用形式化方法以数学方式证明关键组件的正确性，这对于系统中安全关键的部分尤其有用混沌工程：故意引入故障和边缘情况来测试系统弹性，确保更新不会在压力下引入新的漏洞威胁建模：针对每次更新开展彻底的威胁建模会议，识别潜在的新攻击媒介或弱点红队演习：让专门的红队尝试在更新后利用系统，这可能会揭示无法预料的漏洞历史数据回放：根据大量历史威胁数据测试更新，确保它能正确处理已知的过去威胁，而不会出现回归金丝雀部署：部署到一小部分选择提前更新的真实用户，在更广泛地推出之前密切监控任何问题合规性和监管检查：确保每次更新均符合所有相关行业标准和法规进行审核以验证合规性跨平台测试：在所有支持的操作系统、硬件配置和软件版本上进行测试确保整个生态系统的兼容性负载测试和可扩展性分析：将更新置于极端条件下，以确保其在重负载下正常运行，测试其如何在大型网络中扩展长时间运行的测试：进行几天或几周的扩展测试，以发现与时间相关的问题，寻找内存泄漏、资源耗尽或随时间推移的性能下降依赖关系分析：彻底分析所有依赖项及其潜在影响，确保所有第三方组件都是最新的且安全的代码签名和完整性检查：实施严格的代码签名流程，从开发到部署的每个阶段验证更新的完整性

这个由人工智能生成的计划仅用了两个提示就创建出来了，这展示了人工智能在测试规划方面的潜力。我只是从 CrowdStrike 的事件报告中复制了问题的基本描述，然后用第二个后续提示将其变得更加详细。人工智能的一些建议是合理的和意料之中的，涵盖了 CrowdStrike 以及 X 或 YouTube 上的人类群体所建议的大部分内容，但它也包括了 CrowdStrike（以及其他从事关键基础设施工作的团队）没有提到、可能应该考虑的想法。

是的，我自己阅读并分析了 AI 的测试计划。但是，我也很懒，容易出错，所以我让第二个 AI（ChatGPT 4o）将 Claude.AI 生成的计划与 CrowdStrike 的计划进行比较。AI 强调了测试计划中的几个关键差异：

1. 人工智能计划的深度和广度有所提升
2. 更加结构化的分阶段推出
3. 重视沙盒和环境测试
4. 引入先进的测试技术
5. 更加注重以安全为重点的测试
6. 更加注重性能和可扩展性
7. 更多的用户/客户参与
8. 纳入合规性和文档流程
9. 重视依赖管理
10. 关注代码完整性

概括

总而言之，虽然 CrowdStrike 的原始测试和新计划的额外测试提供了相当好的覆盖范围，但人工智能生成的计划更加全面、结构化和详细。它引入了许多先进的测试方法，并更加注重安全性、性能和用户/客户参与度。

有趣的是，社交媒体上的批评者和 CrowdStrike 和微软等市值 1000 亿美元的“人工智能”公司似乎都没有在测试计划中充分利用人工智能。即使是快速提示也能提供比内部或外部人员提出的测试计划更全面、更令人信服的测试计划。

使用 AI 不仅可以改进测试计划，还可以传达新的测试计划，这可能比迄今为止人工编写的事件报告和更新更能让客户和世界感到安心。鉴于我们在这里看到的情况，我会更加信任 AI 与经验丰富的测试人员合作的测试计划，而这仅仅是在 15 分钟的实验之后。我与 Claude.AI 进行了更多交流，我们开始一起制定一个相当广泛和详细的计划——AI 是我过去一周接触过的最好的测试计划合作者 :)

人工智能是我过去一周接触过或读过的最好的测试规划协作者。人工智能还为没有更多背景信息来制定更详细的测试计划而道歉，并谦虚地指出，即使进行了所有这些额外的测试，错误仍然会漏掉。人工智能没有向 LinkedIn 或 X 发送垃圾邮件。

最有趣的是，这可能是一个数十亿美元的问题，但一个简单的每月 30 美元的人工智能聊天机器人和一个有经验的人大约 15 分钟的时间，将在很大程度上保护世界免受未来类似事件的侵害——至少让世界感觉更安全。

这次CrowdStrike事件最大的教训或许就是人类应该首先与AI对话。

欢迎前往我们的公众号，阅读更多时事资讯