AI 生成假文件，用套娃让黑客自我怀疑

最新推荐文章于 2024-09-21 10:38:43 发布

AI科技大本营

最新推荐文章于 2024-09-21 10:38:43 发布

阅读量402

点赞数

文章标签： java 人工智能 python 大数据机器学习

作者 | DARTMOUTHCOLLEGE

责编 | 欧阳姝黎

头图 | 下载于ICphoto

第二次世界大战期间，英国情报人员在一具尸体上放置了虚假文件，以愚弄纳粹德国，诱使其对希腊发动袭击。这种代号 “碎肉行动”（Operation Mincemeat）的措施取得了成功，并掩盖了盟军入侵西西里岛的意图。

间谍活动中的 “金丝雀陷阱” 技术通过传播多种版本的假文件来隐藏秘密。金丝雀陷阱可以用来发掘泄露的信息，或者像第二次世界大战期间发生的那样，用制造分散注意力的消息来隐藏真正有价值的信息。

最近，达特茅斯学院计算机系设计了一个新型数据保护系统 WE-FORGE，便可以使用人工智能技术构建金丝雀陷阱。

在知识产权犯罪活动日益猖獗的今天，这一研究具有十足的现实意义：创新型公司对技术进行了大量的投资，然而，往往一个小成本的网络攻击就可以使攻击者窃取价值数以亿计的新技术。

此前，FORGE（Fake Online Repository Generation Engine）系统已经用于解决这个问题，它可以自动生成任何真实文件的 N 个 "假" 版本，从而使攻击者必须确定泄露的 N+1 个文件中哪一个是真实文件。但 FORGE 这个解决方案仍有两个主要缺点，一是需要FORGE 本体（ontologies）生成假文件；二是FORGE 需要以“先识别，后替代”的方式生成假文件。

而本文提出的 WE-FORGE 系统，基于 Word-Embedding 技术，完全消除了对本体的需求，可以自动制造虚假文件，来保护药物设计和军事技术等方面的知识产权。（论文题为 Using Word Embeddings to Deter Intellectual Property Theft through Automated Generation of Fake Documents，发表在 ACM Transactions on Management Information Systems 上。）

根据论文，WE-FORGE 的几大贡献亮点如下：

开发了一个融合词嵌入和聚类的架构，以识别概念的潜在替代。
将选择最佳概念替换和最佳替换的问题定为两个 Joint Concept Replacement 问题（JCR）。
为了确保生成的假文件集的多样性，在 JCR 问题的目标函数中加入了一个正则化项以确保这一点。

此外，WE-FORGE 算法确保随机地选择替代品，从而减少了攻击者可以轻易地反向工程的机会。

达特茅斯学院网络安全、技术和社会学领域杰出教授，安全、技术和社会学研究所主任 V.S.Subrahmanian 说：“该系统生成的文件与原始文件非常相似，是具有可信度的，但又与原始文件有很大差异。”

事实上，网络安全专家已经在使用 “金丝雀陷阱” 或 “蜂蜜文件” 以及外语翻译技术来制造诱饵，以欺骗潜在的攻击者。但 WE-FORGE 进一步改进了这些技术，使用自然语言处理自动生成多个可信假文件。该系统还添加了随机性元素，以防攻击者轻易识别出真正的文档。

WE-FORGE 可以用来生成许多技术设计文件的伪造版本。当攻击者入侵一个系统时，他们面临的艰巨任务是找出众多类似文档中真的那个。

Subrahmanian 表示：“我们使用这种技术迫使攻击者浪费时间和精力来识别正确的文档。此外，他们对自己找到的结果也是存疑的。”

根据该团队的研究，一项专利可以包含超过 1000 个概念和多达 20 个可能的替代部分。WE-FORGE 最终可能会用来计算在单个技术文档中可替换节点的数百万种可能性。这一系统增加了窃贼在窃取政府或行业机密时所需的成本。

WE-FORGE 算法的工作原理是计算文档中概念之间的相似性，并分析每个单词与文档的相关性。然后，系统将概念分类到堆栈中并为每个组计算可能的候选对象。

Guarini’21 的 Dongkai Chen 表示：“WE-FORGE 也可以从原始文件的作者那里获得输入。人类和机器的聪明才智结合在一起，会让知识产权窃取者付出更多代价。”

作为研究的一部分，该团队伪造了一系列计算机科学和化学专利，并邀请专家来判断哪些文件是真实的。结果表明，WE-FORGE 系统能够 “为每个任务持续生成高度可信的虚假文件。”

与其他工具不同，WE-FORGE 不是简单地隐藏信息而是专门伪造技术信息，比如密码。WE-FORGE 改进了系统的早期版本 FORGE，删除了创建面向特定技术操作的耗时需求，还不确保了假消息之间有更丰富的多样性，并遵循一种改进的方法来选择要替换的部分。

当然，未来还有许多重要的研究方向。比如说，FORGE 和 WE-FORGE 只修改文件的文本部分。但是一个文件可以包含不同类型的相互联系的实体，如数字、流程图和表格，仍需要确保文本的变化在这些类型的实体中得到一致的反映。

这是该研究拓展应用空间的下一步。

Reference：

https://scitechdaily.com/cybersecurity-researchers-build-a-better-canary-trap-using-ai-to-generate-fake-documents//

https://www.semanticscholar.org/paper/A-Fake-Online-Repository-Generation-Engine-for-Chakraborty-Jajodia/9e94ffaff39f6919026e6e50753778d4b37d77cb

2001 年创刊，20 年技术见证

《新程序员001：开发者黄金十年》

重磅来袭

扫描下方二维码，添加小助手

即刻加入 AI 科技大本营「读者群」

群内将不定期放送福利

快快加入吧！

AI科技大本营

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。