摘要
在本文中,我们使用 Jina 演示了如何使用相似性搜索来解决网络安全这样一个常见的业务挑战。与原方案的效果相比,精确度提升了 21.3%,召回率提升了 62.1%!
前言
根据 IBM 的研究¹,网络攻击导致的数据泄露给企业造成的平均成本为 386 万美元,并且企业平均需要花费 280 天的时间来识别和遏制网络攻击。
那么,什么是网络攻击?我们如何利用像 Jina 这样的下一代搜索工具来减轻我们的网络安全威胁呢?
网络攻击就是恶意行为者利用网络存在的漏洞和安全缺陷,对系统和资源进行攻击。恶意流量识别是维护网络空间安全的重要手段。
在一个包含 100-1000 维度的数据集会带来相当棘手的挑战,好比大海捞针。而相似性检索技术能够破解高维数据的处理难题,其工作原理是,对于给定的样本对象,在集合中查找与之内容最相似的对象。你可以把它看作是一个最近邻(KNN)问题,其相似性由欧式距离来衡量。
相似度检索技术²
目标
在本课程项目中,我们将利用 Jina 搭建一个由深度学习驱动的网络安全仪表板,模拟网络流量,实时监测恶意事件。我们的目标是开发一个可靠、可扩展,并且高性能的入侵检测系统,实时预测攻击是否发生。
为了实现这一目标,我们将对预训练的神经网络执行“网络手术”,移除分类层,并将神经网络重新用作特征提取器。也就是说,我们的网络最终输出的是特征,而不是标签。
“网络手术”示意图
接着,我们使用特征提取器所生成的 128 维嵌入,并通过 Jina Flow 对它们