Xinyao Zheng-CSDN博客

原创【NVM】持久内存的架构

1.缓存行与纠错码纠错码（Error Correcting Code，ECC）用来保护持久内存的数据正确性，涉及两个缓存行，这也意味着读操作会读出两个缓存行的数据。而对于写操作，持久内存控制器会尽量同时处理两个缓存行来优化性能。但是对于写一个缓存行，持久内存会通过读—修改—写来完成操作（ECC重新计算）。2.介质的组织持久内存的介质被组织成ECC块，每个ECC块包括4个微处理器缓存行（每个64字节）、4个毒药标志位（对应4个缓存行，存储在元数据中）、其他元数据（每个缓存行的状态）和ECC。

2024-05-22 01:26:43 975

原创【NVM】非易失存储介质

易失性设备需要维持供电，断电后数据会丢失，如SRAM（Static Random AccessMemory，静态随机存储器）和DRAM（Dynamic Random AccessMemory，动态随机存储器）。非易失性设备，如EEPROM（Electrically Erasable Programmable Read Only Memory）和Flash，数据在断电后可以继续存在。缓存使用SRAM，使用与微处理器相同的CMOS技术。

2024-05-22 00:36:19 860

原创【SSD】NVMe协议

NVMe即Non-Volatile Memory Express，是非易失性存储器标准，是跑在PCIe接口上的协议标准。NVMe在设计之初就充分利用了PCIe SSD的低延时、高并行性，还有当代处理器、平台与应用的高并行性。NVMe为SSD而生，但不局限于以闪存为媒介的SSD，它同样可以应用在高性能和低延迟的3D XPoint这类新型的介质上。1.低延时(Latency)造成硬盘存储延时的三大因素为存储介质、控制器以及软件接口标准。❑存储介质层面，闪存(Flash)比传统机械硬盘速度快太多了。

2024-05-21 19:33:35 1391

原创【SSD】ECC LDPC原理

LDPC全称是Low Density Parity-Check Code，即低密度奇偶校验码。LDPC的特征是低密度，也就是说校验矩阵H里面的1分布比较稀疏。LDPC又分为正则LDPC(regular LDPC)和非正则LDPC(irregular LDPC)编码。正则LDPC保证校验矩阵每行有固定J个1，每列有固定K个1；非正则LDPC没有上述限制。

2024-05-21 18:01:05 1691

原创【SSD】FTL 闪存转换层

FTL（Flash Translation Layer，闪存转换层）用于完成主机逻辑地址空间到闪存物理地址空间的翻译，或者说是映射。SSD每把一笔用户逻辑数据写入闪存地址空间，便记录下该逻辑地址到物理地址的映射关系，下次主机想读取该数据时，固件根据这个映射便能从闪存中把这笔数据读上来然后返回给用户。事实上，现在SSD中的FTL要做的事情还有很多，比如垃圾回收、磨损均衡、异常掉电处理等（后面会有详细介绍）。

2024-05-21 17:19:22 1777

原创【SSD】NAND Flsah

SSD使用的典型存储介质是闪存(NAND Flash)。

2024-05-21 16:16:52 1744

原创【大模型推理】FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU

大型语言模型（LLMs）可能具有数十亿甚至数万亿的参数，这导致运行所需的计算和内存要求极高。例如，仅加载GPT-175B模型权重就需要325GB的GPU内存。要将这个模型适配到GPU上，至少需要五个A100（80GB）GPU和复杂的并行策略。因此，降低LLM推理的资源需求近年来引起了极大的关注。本文关注的是一种称为吞吐量导向的生成推理设置，它们通常需要对大量标记（例如，公司语料库中的所有文档）进行批处理的LLM推理，并且对延迟的敏感性较低。

2024-04-25 17:18:10 1375

原创【大模型训练】ZeRO-infinity: breaking the GPU memory wall for extreme scale deep learning

在过去的三年中，最大的密集深度学习模型已经增长了1000倍以上，达到数千亿个参数，而GPU内存仅增长了5倍（从16 GB到80 GB）。因此，模型规模的增长主要通过系统创新来支持，这些创新使得大型模型能够适应多个GPU的聚合内存。然而，我们正接近GPU内存的极限。仅仅为了适应一个拥有万亿个参数的模型的训练，就需要800个NVIDIA V100 GPU，而这样的集群对于大多数数据科学家来说是不可企及的。此外，以这样的规模训练模型需要复杂的并行技术组合，这给数据科学家重构模型带来了巨大负担。

2024-04-19 15:42:28 755

原创【TEE论文】IceClave: A Trusted Execution Environment for In-Storage Computing

使用现代固态硬盘（SSD）的存储中计算使开发人员能够将程序从主机转移到SSD上。这被证明是缓解I/O瓶颈的有效方法。为了促进存储中计算，已经提出了许多框架。然而，其中很少有框架将存储中的安全性作为首要任务。具体而言，由于现代SSD控制器没有可信执行环境，被转移到SSD上的（恶意）程序可能会窃取、修改甚至破坏存储在SSD中的数据。在本文中，我们首先调查了存储中计算。为了抵御这些攻击，我们构建了一个轻量级的可信执行环境，名为IceClave，用于存储中计算。

2024-04-15 20:55:56 1023 2

原创【TEE】DarKnight: An Accelerated Framework for Privacy and Integrity Preserving Deep Learning Using Tr

文章大部分篇幅在讨论前向后向的encoding和decoding以及正确性证明，并考虑在GPU受损的情况下的计算完整性。实验结果表明，与完全在 SGX TEE 中实施的基线相比，存在平均 6.5 倍的训练加速和 12.5 倍的推理加速，准确性没有下降。工作重点是防止一部分机器可能受到损害的情况，而不是完全不受信任的云提供商，即来自云提供商的每台计算机都受到损害和串通。DarKnight 专注于暴露用于训练或推理的数据集的攻击，以及修改不受信任硬件上的计算结果的攻击。

2024-03-12 20:29:37 413

原创【TEE】内存完整性保护

这种方式使树根具有防篡改性，因为敌手不能在没有存储在芯片上的密钥K的情况下生成新的MAC，也不能重放旧的MAC，因为它不会由当前的根节点产生。将生成的加密块存储在外部存储器中，并将创建的最后一个块(即TEC - Tree的根)加密时使用的nonce保存在片上，使得根不可篡改。没有密钥的敌手不能创建树节点，而没有片上根节点，他就不能重放树根。写操作为每个数据块计算一个MAC，MAC计算使用的密钥被安全地存储在可信芯片上，只有片上验证引擎本身能够计算出有效的MAC，因此MAC可以存储在不可信的外部存储中。

2024-03-05 23:03:33 868

原创【云安全】Security and Performance in the Delegated User-level Virtualization（2023 OSDI）

调查显示，所有已知的威胁主机内核的管理程序漏洞都位于VM plane，委托虚拟化基于一个小型的硬件扩展，将内核中的VM plane完全卸载到一个名为DuVisor的用户空间管理程序，该管理程序直接与其VM交互而不退出主机内核。我们在开源的RISC - V CPU上实现了基于FireSim的硬件扩展，并在其上搭建了基于Rust的DuVisor。评估结果表明，DuVisor以可忽略的性能开销( < 5 % )显著降低了攻击面。

2024-02-28 20:13:18 770

原创【云安全】Bifrost: Analysis and Optimization of Network I/O Tax in Confidential Virtual Machines 2023ATC

现代云服务商的主要IO虚拟化选择，典型用法：基于轮训的用户空间IO后端以提供高性能Hypervisor通过vIRQ通知虚拟机，从而触发虚拟机退出与传统VM相比，CVM推出具有更高的延迟Testbed configurationSummary: poor network performance*Posted IRQ: eliminate VM exits during vIRQ deliveriesCVM-IO tax & application workloads共享有限的CPU执行时间CVM-IO ta

2024-02-28 15:26:00 679

原创【云安全】网络安全领域安全协议

IPSec（Internet Protocol Security）是一种网络层安全协议，用于在IP通讯过程中确保完整性、认证性和机密性。它通过在标准的IP协议上加入安全机制来实现加密和认证。IPSec主要由两个协议组成：认证头（AH）和封装安全载荷（ESP）。它们可以单独使用或同时使用，来提供数据的不同级别的保护。IPSec广泛应用于虚拟私人网络（VPN）中，保护跨不安全的公共网络传输的数据。

2024-02-27 22:48:01 559

原创【LLM安全】Privacy in Large Language Models: Attacks, Defenses and Future Directions（综述）

SMPC协议优化( SMPC Protocol Optimization，SPO )是指利用先进的SMPC协议，在保持原有模型结构的同时，提升LLMs隐私保护推理的效率。隐私攻击的基本理念是，借助更强大的可访问性，攻击者有望恢复更多的敏感信息或获得对受害者LLMs更多的控制权。例如，在仅有黑盒模型访问的情况下，敌手可能会进行训练数据提取攻击，以恢复少量的训练数据。然而，保护LLMs隐私的一个主要挑战在于非线性操作所带来的限制，例如Softmax，GeLU，LayerNorm等，这些操作与SMPC不兼容。

2024-02-27 21:16:27 2547

原创【LLM安全】Personal LLM Agents: Insights and Survey about the Capability, Efficiency and Security（综述）

确保Personal LLM Agents中用户数据隐私和服务安全的保护成为一个至关重要的问题。

2024-02-27 12:29:02 1260

原创【LLM安全】A Survey on Large Language Model (LLM) Security and Privacy: The Good, the Bad, and the Ugly

LLMs在代码安全和数据安全与隐私方面都做出了贡献。在代码安全的背景下，LLMs已经被用于代码(例如,安全编码、测试用例生成、脆弱代码检测、恶意代码检测、代码修复等)的整个生命周期。在数据安全和隐私方面，LLMs已被应用于确保数据完整性、数据机密性、数据可靠性和数据可追溯性。大多数研究人员发现基于LLM的方法优于传统最先进的方法。

2024-02-26 20:33:51 1750

原创【架构】SRAM的安全性

本文介绍的工作是双重的。在下文中，我们介绍了基于SRAM的FPGA的配置存储器中的故障注入结果，该FPGA用于评估该检测模块的不同配置的检测能力。据推测，经典的容错技术，如错误检测代码、模块化复制和三重复制，即使不应用于实现安全敏感功能的功能单元，也具有潜在的故障攻击检测机制，足以将任何异常情况作为警报传播到安全监督逻辑，以便可以激活进一步的缓解机制。为了提供对这些类型攻击的弹性，我们提出了一种对称的8T SRAM单元，它比传统的6T单元多包含两个晶体管，以显着降低存储数据与泄漏电流之间的相关性。

2024-02-25 23:23:28 946 1

原创【架构】面向人工智能（AI）的硬件的可靠性（2021）

由于激进的技术扩展，现代系统越来越容易受到可靠性威胁的影响，例如软错误、老化和工艺变化。这些威胁在硬件级别表现为位翻转，并且根据位置，可能会损坏输出，从而导致不准确或潜在的灾难性结果。传统的缓解技术基于冗余，例如双模块化冗余（DMR） [16] 和三重模块化冗余（TMR） [17]。然而，由于 DNN 的计算密集型性质，这些技术会导致巨大的开销，对系统的效率产生负面影响。纠错码（ECC）和指令重复（ID） [18] 也存在类似的问题。因此，需要替代缓解技术，以，同时不影响效率。

2024-02-25 22:42:19 903

原创【架构】GPU架构总结

在之前的 SM 概览图以及上图里，可以注意到 SM 内有两个 Warp Scheduler 和两个 Dispatch Unit. 这意味着，同一时刻，会并发运行两个 warp，每个 warp 会被分发到一个 Cuda Core Group(16 个 CUDA Core), 或者 16 个 load/store 单元，或者 4 个 SFU 上去真正执行，且每次分发只执行一条指令，而 Warp Scheduler 维护了多个（比如几十个）的 Warp 状态。在提升性能的同时，H100的功耗也在大幅上升。

2024-02-25 22:08:37 4299 2

原创【TEE论文】SoK：使用硬件辅助隔离执行环境实现安全性的研究（综述） 2016

硬件供应商推出了各种 HIEE，包括系统管理模式、Intel 管理引擎、ARM TrustZone 和 Intel 软件防护扩展。这篇 SoK 论文对现有 HIEE 进行了全面研究探讨了 HIEE 的防御性和进攻性使用场景，并讨论了针对基于 HIEE 系统的攻击。

2024-02-23 15:11:28 830

原创【TEE论文】硬件辅助安全全面调查：从边缘到云（综述）

这允许在不被发现的情况下，将主机操作系统动态放置在其自己的安全虚拟机中，从而可以完全控制系统，包括其他恶意软件的操纵。在MET中，AMD发布了两个主要的安全功能，即安全内存加密（SME）和安全加密虚拟化（SEV）。对于熟悉英特尔编译器中指针检查器功能的开发人员来说，迁移到英特尔 MPX 将是一个容易的过程，因为只有一个新的编译器开关、一些新的内部函数和一个支持英特尔 MPX 的 C 运行时库。作为ARM处理器的扩展，很明显，它的使用将用于从Smatphone到更通用的物联网微控制器的嵌入式系统。

2024-02-23 13:13:32 1133

原创【安全】大模型安全综述

主要关注点在于安全应用程序领域，深入研究利用 LLM 发起网络攻击。

2024-02-22 23:19:17 1501 1

原创【TEE论文】ProMT: Optimizing Integrity Tree Updates for Write-Intensive Pages in Secure NVMs

NVM的内存安全性能优化

2024-02-22 17:37:16 740

原创【架构】GPU虚拟化

局限：授权付费。

2024-02-20 18:35:20 816

原创【云安全】传输层安全性（TLS）大汇总

传输层安全性（Transport Layer Security，TLS）是一种广泛采用的安全性协议，旨在促进互联网通信的私密性和数据安全性。TLS 的主要用例是对 web 应用程序和服务器之间的通信（例如，web 浏览器加载网站）进行加密。TLS 由互联网工程任务组（Internet Engineering Task Force, IETF）提出，协议的第一个版本于 1999 年发布。最新版本是 TLS 1.3，发布于 2018 年。Cloudflare 向所有用户提供免费的 TLS/SSL 证书。

2024-02-11 23:31:12 1648

原创【架构论文】VELTAIR: Towards High-Performance Multi-tenant Deep Learning Services via Adaptive Compilation

与计算量大的训练过程不同，单个深度学习模型的推理很难充分利用硬件，而硬件通常以较小的批量大小运行，因此，在单个硬件上共享多个 DL 模型十分重要。多租户带来了一些挑战，包括资源管理和分配、共享资源竞争、任务调度等。对于传统的多租户工作负载，研究人员提出了基于资源分区、硬件隔离等的各种解决方案。同样，研究人员也提出了对利用时间和空间多任务处理的多租户深度学习服务的各种架构支持。然而，多租户深度学习服务有其独特的挑战。由于深度学习模型的复杂内部结构，调度粒度对多模型服务吞吐量有着深远的影响。

2024-01-31 12:12:07 989

原创【架构论文】SCALE: Secure and Scalable Cache Partitioning（2023 HOST）

LLC可以提高性能，但是会引入安全漏洞，缓存分配的可预测变化可以充当侧信道，提出了一种安全的缓存分配策略，保护缓存免受基于时间的侧信道攻击。SCALE使用随机性实现动态可扩展的分区，添加噪音防止对手观察到分配中的可预测变化，利用差分隐私，并证明SCALE可以提供可量化和信息理论的安全保证。SCALE在具有多编程工作负载的16核平铺芯片多处理器上优于最先进的安全缓存解决方案，并将性能提高39%。静态分区不能满足应用程序不断变化的需求，性能低于动态分区；

2024-01-30 22:40:57 786

原创【架构论文】Composable Cachelets: Protecting Enclaves from Cache Side-Channel Attacks（2022USENIX Security）

缓存侧信道攻击允许对手泄露隔离飞地中存储的的机密而不用直接访问飞地内存。本文提出一种可扩展的LLC动态划分策略（CC），用于完全隔离飞地。CC支持飞地隔离，可以在飞地创建或者销毁时动态调整飞地容量。我们提出一种飞地感知和缓存感知的操作语义去帮助奖励CC的安全策略，实验表明CC能够以较好的性能和复杂性抵御缓存侧信道攻击。TEE依赖硬件强制执行飞抵边界，确保机密数据的一致性和机密性，最近研究表明共享的缓存行存在潜在攻击者，可以观察他们访存时间的不同来了解其他程序的允许模式。

2024-01-30 17:40:26 830

原创【架构论文】SecDCP: Secure dynamic cache partitioning for efficient timing channel protection（2016 DAC）

本文提出了 SecDCP，这是一种安全的动态缓存分区方案，可提高静态缓存分区的性能，同时满足分层安全策略指定的安全要求。SecDCP 仅使用公共应用程序的缓存需求来动态确定缓存分区大小。然后，SecDCP 仅在必要时刷新缓存行，从而安全有效地强制执行新的分区大小。SecDCP 还支持对常规安全策略的非平凡扩展。

2024-01-30 11:43:28 652

原创【TEE论文】Reusable Enclaves for Confidential Serverless Computing（usenixsecurity23）

良性内存访问将获得与操作前相同的地址，而恶意访问将获得边界上方的不同地址，从而导致读取边界上方的随机位置。但是，这些检查可能很长，可能不适合对齐单元，因此即使使用对齐分支技术进行保护，它们也容易被绕过。另一种典型的控制流劫持攻击是面向返回的编程（ROP），通过修改返回存储在堆栈上的指针，使代码分支到任意位置。为了解决这个问题，我们将代码发送到具有固定大小对齐单元的块中，并强制将检测指令与检测代码发出到同一个块中。对于这些函数，我们的目标是将它们作为一个整体执行，而不会有任何被劫持的代码跳到中间。

2024-01-23 18:46:01 898 1

原创【TEE论文】Confidential Serverless Made Efficient with Plug-In Enclaves （2021 ISCA）

无服务器计算：功能即服务（FaaS）。无服务器函数是事件驱动的，通过用户请求或其他函数的调用（以链方式）。54% 的无服务器应用程序仅包含一个函数，50% 的函数执行时间不到 1 秒；因此，无服务器应用程序对服务延迟极其敏感。TEE被认为是实现实用的隐私保护无服务器应用程序的有前途的技术。但是，现有的 TEE 设计无法很好地适应无服务器工作负载。

2024-01-23 17:34:26 955 1

原创【TEE论文】Trust Beyond Border: Lightweight, Verifiable User Isolation for Protecting In-Enclave Service

现实世界的微服务用户执行的任务很小，无法支持为每个用户创建单独飞地的资源和延迟，无法在单个飞地允许不同用户的任务。本文开发一种方法，实现飞地内用户隔离，以保护分时服务。配置安全区的时候限制安全区内线程的权限在用户切换时对安全区数据执行完整性检查和清理性能目标：轻量级（1%开销）、可验证（3200行代码）专为顺序服务模型而设计，enclave 为一组用户提供服务，但一次处理来自同一用户的任务。每个用户都需要对 enclave 运行远程证明，并在首次与 enclave 交互时交换会话密钥。

2024-01-23 15:15:40 857 1

原创【TEE论文】(HETEE)Enabling rack-scale confidential computing using heterogeneous TEE(2020 SP)

保护平台即服务（PaaS），相比于之前的工作Graviton和HIX，不需要芯片级的更改，将侧信道攻击面降至最低。使用 PCIe ExpressFabric 作为机架内的高速、低延迟资源共享网络，将本地计算服务器节点连接到异构计算单元池；HETEE Box管理异构单元，将它们动态分配给计算任务，并通过多个模块将它们相互隔离，包括security controlled、proxy node和具有 PCIe 接口的加速器资源;

2024-01-22 23:52:51 918

原创【TEE论文】HyperEnclave: An Open and Cross-platform Trusted Execution Environment（USENIX ATC 2022）

Enclave：灵活性开源、兼容SGX的process-based TEE灵活的飞地模式：supports the flexible enclave operation modes to fulfill various enclave workloads参考文献。

2024-01-22 22:54:26 1207

原创【TEE】片外内存保护：AES分组算法+MAC完整性验证

TEE内存机密性和完整性保护方法；完整性保护优化

2024-01-22 16:40:11 1810

原创【TEE】移动端、边端、云端的TEE

执行环境：描述了一组该环境与外界的软、硬件接口，例如指令集、隔离要求等可信执行环境：目标是确保一个任务按照预期执行① 初始状态的机密性、完整性② 运行时状态的机密性、完整性分类① 软件可信执行环境InkTag[HKD+,ASPLOS’13], Virtual Ghost[CDA,ASPLOS’14]，HypSec[LKN,Security’19]等② 硬件可信执行环境。

2024-01-22 11:23:46 412

原创【TEE】Intel SGX的不足和解决方案

基于硬件可信执行环境技术的隐私计算阅读记录。

2024-01-22 11:09:39 598

原创【TEE】Intel可信执行环境的前世今生

Intel SGX最关键的优势在于将应用程序以外的软件栈如OS和BIOS都排除在了Trusted Computing Base（简称TCB）以外，一旦软件和数据位于Encalve中，即便是操作系统和VMM（Hypervisor）也无法影响Enclave里面的代码和数据，Enclave的安全边界只包含CPU和它本身。（图片来自：Intel Sgx Product Brief 2019 ）

2024-01-19 02:27:57 1687

原创【TEE】可信执行环境保障大模型安全

当交换完成时，GPU 驱动程序和 SEC2 都持有相同的对称会话密钥。在大模型公有云服务方面，以百度、阿里等为代表的互联网与云服务公司，从大模型全生命周期视角出发，涵盖大模型训练、精调、推理、大模型部署、大模型运营等关键阶段面临的安全风险与业务挑战，在自有技术体系内进行深入布局，探索打造安全产品与服务。360等第三方独立的人工智能与安全科技公司，探索“以模型管理模型”方式，打造以大模型为核心的AI Agent（AI智能体）,带入企业真实安全运营场景中，以“虚拟安全专家”的形象，满足企业对安全业务的需求。

2024-01-19 01:03:34 2198

【Intel TDX 】白皮书 Intel Trust Domain Extensions

Confidential Computing within an AI Accelerator 论文阅读

空空如也