矛式网络钓鱼是最大、成本最高的网络威胁形式。据估计,2021 年有 30 万受害者,仅在美国就损失了 4400 万美元,根据 FBI 网络犯罪报告。同时,IBM 安全数据泄露成本报告也对此进行了说明。
矛式网络钓鱼电子邮件与受害者可能收到的善意电子邮件无法区分。这也是为什么鱼叉式网络钓鱼电子邮件的传统分类如此困难的原因。骗局和合法电子邮件之间的内容差异可能很小。通常,两者之间唯一的区别是发件人的意图:发票是合法的,还是骗局?
这篇文章详细介绍了一种双重方法,通过使用增强意图信号来改进鱼叉式网络钓鱼检测。这种方法利用了 NVIDIA Morpheus 进行数据处理和推理。
生成具有新网络钓鱼意图的电子邮件
第一步包括使用生成式人工智能创建大量多样的电子邮件语料库,其中包含与鱼叉式网络钓鱼和诈骗相关的各种意图。随着新威胁的出现,NVIDIA Morpheus 团队使用 NVIDIA NeMo 框架生成具有此类威胁的新电子邮件语料库。在生成具有新型网络钓鱼意图的新电子邮件后,该团队训练一个新的语言模型来识别意图。在传统的网络钓鱼检测机制中,此类模型将需要大量带有人为标签的电子邮件。
图 1。鱼叉式网络钓鱼检测方法综述
检测发件人意图
第一步针对电子邮件背后的意图。下一步针对发件人的意图。为了抵御使用欺骗、已知发件人或不能立即表达其真实意图的较长时间的鱼叉式网络钓鱼攻击,我们通过构建发件人或发件人组的行为草图来构建额外的信号。
在上述意图工作的基础上,记录已知发送者过去观察到的意图。例如,已知发件人第一次要钱可能是提醒用户的信号。
语法用法也被观察和记录。将新电子邮件的语法与发件人的语法历史进行比较。与观察到的语法的偏差可能表明可能存在欺骗攻击。
最后,收集发件人电子邮件的时间模式,并在新电子邮件到达时进行交叉引用,以检查是否存在模式外行为。发件人是在周六午夜第一次发送电子邮件吗?如果是这样的话,这就成为了最终预测中的一个信号。这些信号加在一起用于对电子邮件进行分类。它们还被呈现给最终用户,作为对电子邮件可能是恶意的原因的解释。
适应新的攻击并改进保护
现有的机器学习(ML)方法几乎完全依赖于人类标记的数据,无法快速适应新出现的威胁。使用这里介绍的方法检测鱼叉式网络钓鱼电子邮件的最大好处是该模型能够以多快的速度适应新的攻击。当出现新的攻击时,生成人工智能被用来创建攻击的训练语料库。意向模型经过训练,可以检测其在收到的电子邮件中的存在。
使用 NeMo 构建的模型可以在短短几个小时内生成数千封高质量的主题电子邮件。新的意图被添加到现有的鱼叉式网络钓鱼检测器中。创建新的网络钓鱼攻击电子邮件和更新现有模型的整个端到端工作流程在不到 24 小时内完成。一旦模型就位,电子邮件处理和推理成为一个 Morpheus 管道,可以提供针对鱼叉式网络钓鱼威胁的近乎实时的保护。
结果
为了说明这种方法的灵活性,只使用货币、银行和个人识别信息(PII)意图来训练模型。接下来,使用 NeMo 构建的模型生成了加密货币风格的钓鱼电子邮件。这些电子邮件被合并到原始的培训和验证子集中。
现在包含新加密攻击的验证集随后被传递到原始模型中。然后结合加密攻击意图训练第二个模型。图 2 显示了模型在检测方面的比较情况。
经过进攻训练后,F1 得分从 0.54 提高到 0.89(图 3)。这说明了使用 NVIDIA Morpheus 和 NeMo 训练和适应新攻击的速度有多快。
图 2:未经训练的模型和为基于加密货币的鱼叉式网络钓鱼攻击训练的模型之间的检测差异
图 3。未经训练的模型与针对基于加密货币的鱼叉式网络钓鱼攻击训练的模型之间的 F1 分数差异