网络安全顶会——S&P '24 论文清单、摘要（上）

最新推荐文章于 2025-04-19 22:47:01 发布

riusksk

最新推荐文章于 2025-04-19 22:47:01 发布

阅读量4.8k

点赞数 20

文章标签： web安全安全

本文链接：https://blog.csdn.net/riusksk/article/details/137371268

版权

1、"False negative - that one is going to kill you." - Understanding Industry Perspectives of Static Analysis based Security Testing

随着对自动化安全分析技术的需求不断增加，如基于静态分析的安全测试（SAST）工具，研究人员和工具设计师必须了解开发人员如何看待、选择和使用SAST工具，他们对工具的期望是什么，是否了解工具的限制以及如何解决这些限制，才能开发出有效利用的SAST。本文描述了一项定性研究，探讨了使用SAST工具的开发人员经历的假设、期望、信念和挑战。我们对拥有各种软件开发专业知识以及各种独特安全、产品和组织背景的20名从业者进行了深入的半结构化访谈。我们确定了17个关键发现，揭示了与SAST工具相关的开发人员看法和期望，并揭示了现状中存在的差距-挑战长期以来对SAST设计优先事项的信仰。最后，我们针对我们的研究结果提供了具体的未来方向，供研究人员和从业者参考。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a019/1RjE9Wb4Wze

2、"Len or index or count, anything but v1": Predicting Variable Names in Decompilation Output with Transfer Learning

二进制逆向工程是由熟练且昂贵的人类分析师执行的一项费时费力的任务。关于源代码的信息在编译过程中是不可逆地丢失了。虽然现代反编译器试图从二进制生成C风格的源代码，但它们无法恢复丢失的变量名称。先前的研究探讨了用于预测反编译代码中变量名的机器学习技术。然而，最先进的系统DIRE和DIRTY对于测试集中未包含在训练集中的函数表现不佳——DIRE在DIRTY的数据集上为31.8%，DIRTY在DIRTY的数据集上为36.9%。在本文中，我们提出了VarBERT，一个用于预测反编译输出中有意义的变量名的双向编码器来自Transformers（BERT）。VarBERT的一个优势是我们可以在人类源代码上进行预训练，然后微调模型以完成预测变量名的任务。我们还创建了一个新的数据集VarCorpus，显著扩展了数据集的规模和种类。在VarCorpus上对VarBERT的评估表明，它在预测开发者原始变量名称方面取得了显著改进，为IDA实现了54.43%的准确率，为Ghidra实现了54.49%的准确率。VarBERT严格优于最先进的技术：在VarCorpus的一个子集上，VarBERT能够预测开发者原始变量名的时间为50.70%，而DIRE和DIRTY分别为35.94%和38.00%。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a152/1Ub24apzuq4

3、A Representative Study on Human Detection of Artificially Generated Media Across Countries

人工智能生成的媒体已经成为我们已知的数字社会的威胁。这些伪造品可以基于公开可用的技术自动大规模创建。为了应对这一挑战，学术界和从业者已经提出了多种自动检测策略来检测这种人工媒体。然而，与这些技术进步相比，人类对生成的媒体的感知尚未得到彻底研究。在本文中，我们旨在弥补这一研究空白。我们进行了首次全面调查，以了解人们识别生成媒体的能力，涵盖了美国、德国和中国三个国家，在音频、图像和文本媒体方面共有3,002名参与者。我们的结果表明，最先进的伪造品几乎无法与“真实”媒体区分开来，大多数参与者在被要求将其评为人类生成或机器生成时只能猜测。此外，人工智能生成的媒体在所有媒体类型和所有国家中都被投票为更像人类。为了进一步了解影响人们识别生成媒体能力的因素，我们根据深度伪造和假新闻研究领域的文献综述，包括个人变量。在回归分析中，我们发现广义信任、认知反思和自我报告的深度伪造熟悉度显著影响参与者在所有媒体类型上的决定。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a159/1Ub24iZeb2U

4、A Systematic Study of Physical Sensor Attack Hardness

对机器人车辆（RV）的物理传感器攻击已经成为一个严重关注的问题，因为它们的普遍性和潜在的物理威胁。然而，RV软件开发人员通常没有部署适当的对策。这种犹豫来自于他们的信念，即攻击者在进行传感器攻击时面临重大挑战，例如在硬件中消除传感器冗余和在软件中绕过传感器过滤器。然而，我们发现攻击者可以通过满足特定先决条件和精细调节攻击参数来克服这些挑战。开发人员的误解源于他们缺乏对攻击者在成功实现攻击目标时所面临的难度水平的研究，我们将其称为“攻击难度”。在本文中，我们考察了12种著名传感器攻击的难度。我们首先确定了成功进行攻击所需的先决条件。然后，我们将每种攻击的难度量化为特定攻击启用实际世界中先决条件的频率。为了自动化这种分析，我们引入了RVPROBER，一个攻击先决条件分析框架。RVPROBER发现，这12种传感器攻击需要平均4.4个先决条件，突显了以往文献经常忽略执行这些攻击所需的重要细节。通过满足确定的先决条件并调节攻击参数，我们将成功攻击的数量从6增加到11。此外，我们的分析显示，平均57.08%的实际RV用户容易受到传感器攻击。最后，从确定的先决条件开始，我们分析了每种攻击成功的原因，并发现了以前未知的根本原因，例如RV软件的故障逻辑设计缺陷。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a143/1Ub240Z7pBe

5、A Tale of Two Industroyers: It was the Season of Darkness

在这篇论文中，我们研究了两种试图在乌克兰制造停电的恶意软件。具体而言，我们设计并开发了一个新的沙箱，可以模拟不同的网络、设备和其他特征，以便我们可以执行针对变电站设备的恶意软件，并详细了解攻击者可能对变电站设备执行的具体行动顺序。我们还研究了未来类似恶意软件可能产生的影响。我们的研究结果包括以前未曾记录的新恶意软件行为（如MMS协议有效载荷的详细算法）以及攻击不同目标将产生不同影响的示例。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a162/1Ub24B7070k

6、AFGen: Whole-Function Fuzzing for Applications and Libraries

模糊测试技术已被广泛用于发现漏洞，但现有的模糊测试技术仍无法覆盖和探索应用程序或库中的所有功能。自动生成 API 函数的模糊测试组件的工作提供了一种直接测试目标函数的方法。然而，将这些方法应用到项目（例如库）的任意内部函数是具有挑战性的。具体来说，API 函数的上下文通常对用户来说简单明了，但内部函数的复杂依赖关系导致更复杂的运行上下文和对参数的约束，使得难以有效生成模糊测试组件。在本文中，我们提出了全函数模糊测试，这是一种“自下而上”的方法，通过涵盖所有函数来对应用程序和库进行模糊测试。我们认为，如果通过牺牲精度来获得完整的函数覆盖，则对漏洞发现是有益的，这可以通过精心设计来缓解。为此，我们设计并实现了 AFGEN，一个自动全函数模糊测试框架。给定一个目标函数，AFGEN 将生成一个模糊测试组件，以达到具有适当初始程序上下文的目标函数，并根据发现的崩溃的约束来完善模糊测试组件。具体而言，它根据控制流和数据流依赖性切片目标函数的调用语句，为切片代码中使用的必要变量分配值以确保它们符合其类型，并搜索与崩溃相关的变量的约束语句。通过这种方式，AFGEN 生成具有低误报率的模糊测试组件。为验证 AFGEN 的有效性，我们从 11 个开源项目中收集了 102 个已知漏洞。AFGEN 成功为所有脆弱函数创建了模糊测试组件，并识别了这些已知漏洞中的 66 个，这优于所有比较工具，并发现了第二好的模糊测试工具（即 AFL++）发现的漏洞数量的 2 倍。AFGEN 触发的崩溃实现了 77.1% 的精度，是 FUDGE 的 10 倍。AFGEN 还发现了 24 个通过 CVE ID 确认的未知漏洞。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a011/1RjE9PjiDss

7、ALIF: Low-Cost Adversarial Audio Attacks on Black-Box Speech Platforms using Linguistic Features

广泛的研究表明，对抗性样本（AE）对语音可控智能设备构成重大威胁。最近的研究提出了仅需要自动语音识别（ASR）系统的最终转录的黑盒对抗攻击。然而，这些攻击通常涉及对ASR的多次查询，造成相当大的成本。此外，基于AE的对抗音频样本容易受到ASR更新的影响。在本文中，我们找出了这些限制的根本原因，即无法直接围绕深度学习（DL）模型的决策边界构建AE攻击样本。基于这一观察结果，我们提出了ALIF，第一个基于对抗语言特征的黑盒攻击管道。我们利用文本转语音（TTS）和ASR模型的互为过程，在语言嵌入空间中生成扰动，从而找到决策边界所在的位置。基于ALIF管道，我们提出了ALIF-OTL和ALIF-OTA方案，用于在四种商用ASR和语音助手中发起攻击，分别在数字领域和物理回放环境中进行。广泛的评估表明，ALIF-OTL和-OTA分别提高了97.7%和73.3%的查询效率，同时与现有方法相比表现出竞争性能。值得注意的是，ALIF-OTL可以仅通过一个查询生成攻击样本。此外，我们的时间测试实验证实了我们的方法对ASR更新的稳健性。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a056/1RjEav0Daa4

8、APP-Miner: Detecting API Misuses via Automatically Mining API Path Patterns

从源代码中提取API模式已被广泛应用于检测API误用。然而，最近的研究通常需要手动提供模式模板作为先决条件，这要求先前的软件知识，并限制了它们的提取范围。本文介绍了一种名为APP-Miner（API路径模式挖掘器）的新颖静态分析框架，通过频繁子图挖掘技术提取API路径模式，而无需使用模式模板。关键的洞察是API模式通常由API的数据相关操作组成，并且是普遍存在的。因此，我们将API路径定义为由API的数据相关操作组成的控制流图，因此API路径的最大频繁子图即为可能的API路径模式。我们实现了APP-Miner，并在四个广泛使用的开源软件上进行了广泛评估：Linux内核、OpenSSL、FFmpeg和Apache httpd。我们分别从上述系统中发现了116个、35个、3个和3个新的API误用。此外，我们还获得了19个CVE。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a043/1RjEahCVEXu

9、AVA: Inconspicuous Attribute Variation-based Adversarial Attack bypassing DeepFake Detection

近年来，DeepFake 应用程序越来越受欢迎，但它们的滥用构成了严重的隐私威胁。不幸的是，大多数相关的检测算法以减轻滥用问题的措施基于建立在DNN-based分类模型之上，由于它们容易受到对抗性攻击而脆弱，因为文献表明，通过引入像素级扰动可以绕过这些检测算法。尽管已经提出了相应的缓解措施，但我们发现了一种新的基于属性变化的对抗性攻击（AVA），通过使用高斯先验和语义鉴别器的组合扰动潜在空间来绕过这种缓解。它扰乱了 DeepFake 图像的属性空间中的语义，这些对于人类来说是不明显的（例如，张开的嘴），但可以在 DeepFake 检测中产生实质性差异。我们在九种最先进的 DeepFake 检测算法和应用程序上评估了我们提出的 AVA 攻击。实证结果表明，AVA 攻击能够击败最先进的对 DeepFake 检测器的黑盒攻击，并在两种商业 DeepFake 检测器上实现了超过 95% 的成功率。此外，我们的人类研究表明，AVA 生成的 DeepFake 图像通常对人类来说几乎不可察觉，这带来了巨大的安全和隐私问题。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a155/1Ub24d2MQda

10、AirTaint: Making Dynamic Taint Analysis Faster and Easier

动态污点分析（DTA）是一种广泛使用的数据流跟踪技术，有助于安全研究人员在各种应用中，如模糊测试和漏洞分析。影响其实用性的一个关键问题是显著的开销。根据我们的分析，在一些情况下，最先进的作品甚至会将程序执行效率降低超过100倍。高开销主要是因为大多数方法在指令级别上进行污点分析，并使用即时插装方法将跟踪代码插入原始程序中。在本文中，我们提出了一种新颖的方法AirTaint，将污点规则的基本块级抽象和汇编代码级插装结合起来进行高级动态污点分析。具体来说，AirTaint利用指令级模拟来识别每个基本块的输入和输出操作数（即寄存器和内存变量），然后使用现有的污点引擎推断每个基本块的污点规则抽象。最后，将污点规则抽象的汇编代码插入原始程序中。在运行时，程序将快速执行插入的污点分析代码。在我们基于9个实际应用程序中的14个CVE的评估中，AirTaint成功检测到所有这些漏洞。在比较实验中，AirTaint在29个实际应用程序中的效率要比现有工具表现得好得多，最大改进分别比libdft、SelectiveTaint和TaintRabbit高931.0倍、5.97倍和328.3倍。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a045/1RjEajj6rHa

11、Architectural Mimicry: Innovative Instructions to Efficiently Address Control-Flow Leakage in Data-Oblivious Programs

程序的控制流经常可以通过侧信道攻击来观察。因此，当控制流依赖于秘密时，攻击者可以了解关于这些秘密的信息。广泛使用的基于软件的对抗措施确保攻击者可以观察的控制流方面不依赖于秘密，依赖于诸如虚拟执行（用于平衡代码）或条件执行（用于使代码线性化）等技术。在当前的实践中，实现这些技术所需的原语必须在不事先设计提供它们的现有指令集架构（ISA）中找到，这导致性能、安全性和可移植性问题。为了应对这些问题，本文提出了支持这些技术的轻量级硬件扩展，以一种有原则的方式。我们提出了一种新颖的硬件机制（模拟执行），仅对指令流进行执行，以实现其攻击者可观察的效果，并抑制（大部分）体系结构效果，以及ISA支持（称为AMi，代表体系结构模拟）和编程模型，以有效地利用模拟执行来平衡或线性化代码。通过为一个泄露控制流的32位乱序RISC-V核心实现模拟执行和AMi，我们展示了我们提议的可行性和好处。我们的实验评估表明，硬件成本低（最重要的是，对处理器的关键路径没有影响），AMi能够显著提高性能。特别是，在我们的基准测试中，AMi将最先进的线性化代码的开销降低了60%。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a047/1RjEal0He5a

12、Asterisk: Super-fast MPC with a Friend

多方安全计算（MPC）使多个相互不信任方持有的敏感数据进行隐私保护的协作计算成为可能。遗憾的是，在大多数方恶意腐败（也称为不诚实多数设置）的自然环境中，传统的MPC协议会产生高开销，并提供比实际应用需要的安全保障要弱。在本文中，我们探讨了通过假设添加一个半诚实、非串通的辅助方HP，规避这些缺点并实现具有强安全保障的实际高效不诚实多数MPC协议的可能性。我们认为这是一个更现实的替代方案，因为许多涉及潜在大量方（如暗池）的MPC的实际应用通常由可以模拟为HP的中央治理实体来实现。我们的框架仅需要调用HP恒定次数，实现了强公正性保证（所有方要么都学习输出，要么都不学习），并且可扩展到数百方，表现优于所有现有的不诚实多数MPC协议，并且实际上与最先进的诚实多数MPC协议相竞争。我们的实验表明，与最佳不诚实多数MPC协议相比，星号在预处理中实现了228-288倍的加速。就在线时间而言，星号支持在大约20秒内对具有10^6个乘法门的电路进行100方的评估。我们还使用星号实施和基准测试了实际高效且高度可扩展的暗池实例。相应的运行时间展示了星号在实现具有强安全保障的现实隐私应用的有效性。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a128/1Ub23LgEu3K

13、Attacking and Improving the Tor Directory Protocol

Tor网络通过将流量路由到志愿中间继节点的覆盖网络中来增强客户的隐私。Tor采用分布式协议，其中包括九个硬编码的目录权威（DA）服务器，用于安全地传播有关这些中继的信息，每小时生成一个新的共识文档。通过简单的投票机制来确保一致性，即使部分权威被 compromised，该协议也被期望是安全的。然而，当前的共识协议存在缺陷：它允许模棱两可的攻击，使得只有一个受损的权威能够创建带有恶意中继的有效共识文档。重要的是，这种漏洞并不无害：我们证明，受损的权威可以有效地欺骗一个有针对性的客户以一种无法检测的方式使用模棱两可的共识文档。此外，即使我们有自Tor开始以来的归档Tor共识文档可用，我们也无法确定是否曾经有客户被欺骗过。我们提出了一个两阶段的解决方案来解决这个漏洞。在短期内，我们开发并部署了TorEq，一个用于发现此类漏洞的监控程序：Tor客户端可以在更新共识前参考该监控程序，以确保没有模棱两可情况。为了主动解决问题，我们首先将Tor DA共识问题定义为来自分布式计算文献的交互一致性（IC）问题。然后，我们设计了DirCast，一个新颖的安全拜占庭广播协议，需要最少的代码更改从现有的Tor DA代码库中。我们的协议具有接近最佳的效率，使用乐观地五轮和最多九轮来在当前的九个权威系统中达成一致。我们的解决方案是实用的：我们的性能分析显示，我们的监控程序可以在五分钟内无需改变权威代码即可检测模棱两可情况；安全IC协议可以在真实场景中每小时生成多达500个共识文档。我们正在与Tor安全团队沟通，将解决方案整合到Tor项目中。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a083/1RjEaRA1Bq8

14、Automated Synthesis of Effect Graph Policies for Microservice-Aware Stateful System Call Specialization

我们提出了一个混合程序分析框架，自动合成描述容器化程序的可接受行为的有状态系统调用策略。给定容器镜像作为输入，该框架生成一个参考策略，编码了通过在从容器镜像元数据和环境中提取的约束条件下对应容器二进制入口点进行符号微执行而获得的安全自动机。我们通过为DARPA Cyber Grand Challenge（CGC）数据库中的25个挑战、5个真实的容器化程序（包括广泛使用的NGINX Web 服务器）和公共基准测试中的一个完整微服务应用程序综合安全策略来展示我们方法的实用性和实用性。我们在运行时策略监视器的保护下，分别对每个程序或微服务使用良性和攻击场景。此外，我们通过将我们合成的策略与四种最先进的系统调用专业化工具生成的策略进行比较来评估我们的方法。我们的结果表明，我们的技术可以扩展到大型程序，并准确提取简洁的参考应用程序模型进行安全监控。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a064/1RjEaBpaMSc

15、BENZENE: A Practical Root Cause Analysis System with an Under-Constrained State Mutation

Fuzzing在漏洞发现方面取得了巨大成功，并在当今的软件测试中起着至关重要的作用。尽管Fuzzing越来越受欢迎，但自动根本原因分析（RCA）却受到了较少关注。最近在RCA方面的一个进展是基于崩溃的统计调试，该方法利用程序执行中崩溃触发和非崩溃输入之间的行为差异。因此，获取接近原始崩溃的非崩溃行为对于以前的方法（如Fuzzing）来说至关重要但也具有挑战性。在本文中，我们提出了BENZENE，一个实用的端到端RCA系统，可促进自动崩溃诊断。为此，我们引入了一种新颖技术，称为不完全约束状态突变，用于生成既崩溃又非崩溃行为，以实现有效和高效的RCA。我们设计和实现了BENZENE原型，并用60个实际漏洞进行了评估。我们的实证结果表明，BENZENE不仅在性能（即根本原因排名）方面胜过以往方法，而且在速度（平均快4.6倍）和内存占用（平均少31.4倍）方面取得了优越结果。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a074/1RjEaJVHT4k

16、BOLT: Privacy-Preserving, Accurate and Efficient Inference for Transformers

随着变压器的出现，传统机器学习任务取得了重大进展。然而，它们广泛部署引发了对推断期间敏感信息潜在泄漏的担忧。现有采用安全多方计算（MPC）的方法在应用于变压器时面临限制，因为模型规模庞大且资源密集的矩阵矩阵乘法。在本文中，我们提出了BOLT，一个用于变压器模型的隐私保护推断框架，支持高效的矩阵乘法和非线性计算。结合我们的新型机器学习优化，BOLT将通信成本降低了10.91倍。我们在各种数据集上的评估表明，与浮点模型相比，BOLT保持了可比的准确性，并在各种网络设置下实现了4.8-9.5倍的更快推断速度，超过了最先进的系统。

论文链接：https://www.computer.org/csdl/proceedings-article/sp/2024/313000a130/1Ub23O2X00U