摘要:
自动化红队测试是当前研究的热点问题,旨在更加高效、低成本和可重复地进行网络安全评估。自动攻击计划生成是自动化红队测试的重要部分,目的是替代安全专家进行攻击计划过程。将强化学习与红队测试问题相结合,将红队测试过程建模为马尔可夫决策模型,利用基于策略(Policy Gradient)和基于价值(Q-Learning、SARSA和Deep Q Network)的强化学习算法,在仿真环境中训练代理完成攻击计划的构建;在实验环境中验证攻击计划的可行性和适应性。仿真和实验结果表明,PG算法只学习到非最优攻击计划,收敛速度慢;Q-Learning、SARSA和DQN算法能学习到最优攻击计划,Q-Learning算法收敛速度最快,SARSA算法次之,DQN算法最慢;利用强化学习算法构建的攻击计划具有较好的可行性和适应性。
内容目录
1 模型与理论基础
1.1 马尔可夫决策模型与强化学习理论
1.2 自动攻击计划的表示
2 攻击者建模
2.1 攻击者的知识
2.2 攻击者的能力
2.3 基于计划的攻击者策略
3 实验
3.1 马尔可夫决策场景
3.2 设置奖励机制
3.3 仿真与实验
3.3.1 仿真
3.3.2 实验
3.4 实验结果及分析
4 结 语
渗透测试是在不影响目标系统网络的前提下,利用系统漏洞获得系统控制权的安全测试方法。与通常侧重于漏洞利用的渗透测试不同,红队测试通过模拟黑客真实的攻击行为(包括黑客的技术、程序、工具和目标)来评估网络系统的整个状态。然而,红队测试成本较高,耗时较长,还有专业知识