智能安全运营自适应防护策略生成

攻击模拟动态规划

4.4.2.1 定义内涵

攻击模拟动态规划的含义是基于环境信息和攻击能力图谱,自应评估攻击模拟效果,实时调整下 一步攻击策略、技术实现与路径选择,支撑自动化
突破与攻击模拟技术,升渗透测试、脆弱性评估等 主动风险感知运营环节的自动化水平。
4.4.2.2 技术背景

入侵和攻击模拟(Breach and
Attack Simulation, BAS)技术成为主动风险感知技术的热点方向。传 统渗透测试、漏洞扫描要么过于依赖渗透测试经验,要么受限于有限的环境感知深度。BAS 技术试图通 过自动化的渗透攻击脚本,实现机器自主性更高的业务无感知侵入和数据窃取。经典的渗透测试软件,
例如 Metasploit,以及 ATT&CK驱动下的攻击模拟框架,如 Caldera,Infection Monkey
等,已经开始 逐渐实现或集成智能化、自动化决策模块,来配合渗透测试工程师实现深入的、环境自应的高效风险
路径、风险数据判断。

4.4.2.3 思路方案

攻击模拟动态规划的关键在于动作、状态、环境以及反馈结果的动态建模,以及基于模型空间的学 习过程。在建模方面,核心是规划关联元素的量化表达、交互流程、状态更新函数的设计。如图 29 所示, Deep Exploit 是一个攻击模拟规划技术原型实现 [33],基于异步优势动作评价(Asynchronous Advantage Actor-Critic, A3C)算法框架,在靶机环境中利用 Metasploit 进行自学习。Deep Exploit 将漏洞利用结果 作为奖励函数判断依据,通过大规模的组合测试,使神经网络习得靶标服务器的环境参数与攻击载荷内 容之间的潜在映射关系。在学习方法上,动态规划、博弈建模、强化学习、递归贝叶斯
估计等经典动态 决策框架和算法能够捕获攻击策略选择、多元环境信息与指定攻陷目标函数之间的潜在模式,实现长周 期、多阶段的路径自动化规划。
4.4.2.4 关键挑战

相对于攻防对抗实战,攻击模拟演练以环境系统的风险发现为核心目标,面向环境具有相对静态性、 可控性,以充分增加入侵攻击的覆盖面与渗透深度。尽管如此,操作系统
、服务资源、网络配置、终端 防护策略等多维度的网络动态特征,决定了有效的攻击模拟动态规划仍然面临以下挑战:
样本数据自动构建 攻击模拟的自动化过程是动态的博弈过程,所采用的建模方法,例如强化学习,高度依赖训练数据规模,被动的数据收集模式难以满足复杂模型系统的训练需求。类似棋类、游戏对战博弈智能体训练, 需要探索通过在可控状态空间的靶场中构建攻防流程与评估机制,自动化批量生成可供训练输入的样本 集合。

攻击策略的泛化性能

专家参与的渗透测试过程,能够根据特定 Web页面内容、特定系统服务功能,指定针对性的测试载荷, 并投递到特定的接口中。自动化攻击模拟限于训练样本空间的有限性,难以有效识别特定的投递入口, 并进而生成能够满足业务语义的可用载荷,将大幅限制路径挖掘的深度与广度。攻击策略的泛化需要规 划引擎构建鲁棒的可利用单元和功能语义识别能力,同时实时生成可被业务语义成功解析的载荷内容。

自适应防护策略生成

4.4.3.1 定义内涵

自适应防护策略生成的含义是针对持续的线索发现、事件重构、情报命中、脆弱性和资产识别的结果,

基于指定的风险管控目标,动态的从可行防护策略候选列表中选择最佳防护手段,并生成具有可执行参 数、步骤、任务依赖的防护策略集合,供运营人员判定或交由调度单元直接下发到指定执行单元。

4.4.3.2 技术背景

SOAR技术与平台能够快速固化安全运营中的检测与响应知识剧本。但自动化、环境自应的防御 策略选择与生成,面对的是具有高度动态性和对抗性的开放问题和样本空间,静态剧本中策略的实例针 对性、有效期、参数用性等问题在跨场景、跨长时间周期、跨环境的应用中被放大,限制了响应流程 的自动化水平。因此,亟需通过数据驱动的、知识驱动、环境驱动方法的融合,结合风险偏好学习机制, 制定能够快速有效抑制威胁行为、阻断高风险路径、修复系统损伤,并且不影响正常业务系统运行的实 例化防护设备指令。

4.4.3.3 思路方案

一个典型的防护策略生成框架如图 30 所示。自应防护策略生成的核心在于博弈驱动的策略效果 预估与在线策略要素取。策略效果预估可类比强化学习中的回报函数设计。策略回报的计算需要考虑 具体的运营场景。日志或漏洞分诊场景中,漏洞潜在风险、事件规模对人力资源的要求、平均关键任务 调查处置时间等因素值得关注;攻击事件响应场景下,对正常业务的误杀率、攻击事件的阻断率、策略 执行周期、策略回收周期等因素影响回报的计算结果。核心回报激励计算之外,环境、行动、策略状态 空间的构建,也是强化学习等马尔科夫决策框架的重点。防护策略的制定不止于选定特定的策略类型, 还需相应的配置策略参数,包括策略自身的阈值、选项、作用域等,以及作用对象的特征、状态、趋势 等等。这些策略参数一方面需要结合前述学习过程习得统计性、关联性映射,另一方面需要自应的数 据模式抽取算法,提供在线的、实时的元素特征,技术实现可参考“情报要素的自动化提取”技术章节。

4.4.3.4 关键挑战

策略生成的自动化是安全运营智能化技术体系中最综合的能力体现。一方面该技术的有效实现依赖 于精确的线索发现、完整的事件溯源重构、风险偏好的融合等前置环节;另一方面技术的核心实现:动 态环境博弈建模与策略学习,是人工智能领域的技术圣杯之一,尚未有成熟的解决方案。

样本空间的局限性

不同于限定策略搜索空间、状态空间下的博弈模型,运营对抗环境下缺乏自动化的攻防样本生成方 案,无法批量生成可供强化学习建模的样本集。通过周期性红蓝对抗、靶场攻防模拟可以获得一定数量的训练样本,但有限的环境配置、攻击手法、策略覆盖等,导致模型面对未知样本时的策略选择偏差。

策略学习的鲁棒性

数据驱动的策略学习过程,需要考虑数据的安全性与对抗安全性。在智能模型攻防研究快速迭代演 进的背景下,安全攻防环境的模型鲁棒性尤为关键。攻击者可通过试探性攻击和对抗样本,完成攻击策 略层次逃逸(区别于检测逃逸),或造成策略引擎的拒绝服务攻击。因此需要在策略学习的过程中,充 分考虑潜在的对抗安全风险。

策略模型的迁移性

策略是场景相关的、平台相关的,并且策略执行的效果“增量”在不同的网络环境下表现不同,例 如相同的流量策略执行,不同服务站点的正常业务干扰程度不同。在模型与部署环境的相对迁移过程中, 需要充分保留模型核心知识的同时,根据环境和目标需求动态调整策略参数,这对模型自身的可移植性 带来挑战。

参考资料

绿盟 AISecOps智能安全运营技术白皮书 2020

友情链接

绿盟 2020 网络安全观察

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值