- 博客(192)
- 资源 (8)
- 收藏
- 关注
原创 12w字超全C语言数据结构考研笔记基础知识大总结!基于王道、严蔚敏相关丛书及网络相关资料、包含案例分析
QQ1257639681欢迎关注交流。
2022-07-24 17:38:00 914 5
原创 体系结构论文(五十六):Hybrid Modular Redundancy: Exploring Modular Redundancy Approaches in RISC-V Multi-Core
太空中的辐射环境会导致电子设备出现单粒子瞬态(SETs)和单粒子翻转(SEUs)等错误。这些错误比地面环境中更为频繁,严重影响系统的可靠性。因此,设计能够容忍这些故障的系统对于保障太空任务的成功至关重要。当前普遍采用的辐射加固设计(RHBD)方法代价高昂,且在性能、功耗和面积(PPA)方面存在较大开销。为了弥补PPA上的差距,研究人员开始探索新的低开销解决方案。文中介绍的HMR方法通过灵活的模块冗余技术,在性能和可靠性之间提供了一个可调节的平衡点。
2024-10-06 18:02:14 1369
原创 体系结构论文(五十五):Full Stack Optimization of Transformer Inference
Transformer模型被广泛应用于各种任务,如计算机视觉自然语言处理语音识别等,原因是它们的准确度很高。然而,这些模型的复杂性和规模不断增加,导致它们在推理阶段需要大量的计算资源和带宽,特别是在那些对延迟敏感的应用场景中,部署这些模型变得非常困难。
2024-10-06 16:43:29 1145
原创 体系结构论文(五十四):Reliability-Aware Runahead 【22‘ HPCA】
随着半导体技术的进步,处理器的核心微架构(比如重新排序缓冲区、指令队列、寄存器文件等)变得越来越复杂,这些结构的规模越来越大,这也意味着在处理器等待内存返回数据的过程中,更多的状态信息会长期暴露,导致更高的软错误风险。这些错误是由于辐射或能量粒子撞击引起的,可能导致位翻转,进而破坏处理器的架构状态,降低系统的可靠性。
2024-10-05 13:34:04 1054
原创 体系结构论文(五十三):Featherweight Soft Error Resilience for GPUs 【22‘ MIRCO】
背景:软错误通常由高能粒子(如宇宙射线和α粒子)打击电路造成的位翻转,可能导致程序崩溃或产生错误输出。随着电子技术的进步,电路对这种辐射引发的软错误变得更加敏感。由于GPU广泛应用于从嵌入式系统(如无人机和自动驾驶汽车)到高性能计算系统(如数据中心和超级计算机),保护GPU免受软错误变得至关重要。问题:传统的错误检测方法(如指令复制)虽然可以检测软错误,但性能开销巨大。例如,在GPU上运行每条指令两次以进行比较,可能会导致性能下降50%左右。研究人员试图找到更高效的方法来减少这种开销。Flame方案的目标。
2024-10-02 18:17:02 1465
原创 体系结构论文(五十二):HTAG-eNN: Hardening Technique with AND Gates for Embedded Neural Networks【DAC‘24】
不同的数据格式包括:float4 (1, 2, 1)、float6 (1, 3, 2)、float8 (1, 4, 3)、float12 (1, 4, 7) 和 float16 (1, 5, 10)。这些格式分别指代符号位、指数部分和尾数部分的位数。
2024-10-02 15:23:21 1215
原创 体系结构论文(五十一):Drift: Leveraging Distribution-based Dynamic Precision Quantization for Efficien【DAC‘24】
动态精度量化是一种在运行时根据数据的动态特性选择不同精度的量化方式,以降低计算成本。例如,对重要的区域(如模型中的关键部分或激活值)使用高精度(如8位),而对次要区域(如稀疏区域或不重要的数据)使用低精度(如4位)。这种方法可以大大减少计算资源的使用。
2024-09-29 17:07:36 675
原创 体系结构论文(五十):Maintaining Sanity: Algorithm-based Comprehensive Fault Tolerance for CNNs 【DAC‘24】
背景由于CNN越来越多地被用于安全关键的应用(如自动驾驶、气候分析、疾病诊断等),因此保证它们在硬件故障时依然能稳定运行变得尤为重要。硬件中的软错误(例如由宇宙射线或热中子引起的意外比特翻转)可能导致神经网络误分类,比如可能把卡车识别为鸟。这类错误在安全关键应用中可能引发灾难性后果。
2024-09-29 14:11:42 1196
原创 体系结构论文(四十九):Partitioned Scheduling and Parallelism Assignment for Real-Time DNN Inference Ta【DAC‘24】
首先,算法接受一个任务集𝜏和可用的处理器数量M。初始时,所有处理器被分为。
2024-09-28 20:44:05 1048
原创 体系结构论文(四十八):Garrison: A High-Performance GPU-Accelerated Inference System for Adversarial 【DAC‘24】
MIG是Nvidia GPU的一项新功能,它允许用户将一个GPU分割成多个GPU实例(GIs),每个实例拥有独立的计算和存储资源,如流多处理器(SMs)、L1/L2缓存和DRAM内存。这使得不同的DNN模型可以同时运行而互不干扰,如图1所示,GPU可以被划分为不同大小的实例,最大可以划分为1/7、2/7、3/7、4/7、7/7等不同大小的资源块。
2024-09-28 15:25:02 787
原创 体系结构论文(四十七):MERSIT: A Hardware-Efficient 8-bit Data Format with Enhanced Post-Training 【DAC‘24】
在Posit和MERSIT格式中,
2024-09-27 19:25:51 750
原创 体系结构论文导读(四十六):Work-In-Progress: WCRT Analysis for the 3-Phase Task Model in Partitioned Sche 20‘RTSS
为了限制任务在。
2024-09-11 16:32:28 823
原创 体系结构论文导读(四十五):Design and Dynamic Update of Real-Time Systems 19‘RTSS
背景问题:更新的现实应用:目前设计方法的局限性:阻碍:现有测试方法的不足:未来愿景和挑战:实时系统设计的技术挑战:过去的解决方案:提出的新方法:设计架构概述:系统支持的更新方式:
2024-09-11 14:48:05 809
原创 体系结构论文导读(四十四):Semi-Clairvoyance in Mixed-Criticality Scheduling 19‘RTSS
混合关键性系统和Vestal模型Vestal模型是为了解决在现代处理器上实现时间预测性的问题。任务的执行时间存在很大的不确定性,这使得计算出一个准确的最坏情况执行时间(WCET)变得非常困难。这种执行时间的不确定性源自任务在不同条件下的实际执行时间差异可能很大。只有在非常特殊的“极端情况”下,任务的实际执行时间才会接近其最坏情况执行时间。在Vestal模型中,每个任务都有多个不同的WCET估计值,分别代表在不同保证级别下对实际执行时间的估计。这里介绍了一个。
2024-09-11 14:17:12 961
原创 体系结构论文导读(四十三,上):AXI-ICRT: Towards a Real-Time AXI-Interconnect for Highly Integrated SoCs 23‘TC
AMBA AXI协议是当今工业界和学术界广泛使用的片上总线标准,支持多主设备和多从设备的并行双向通信。该协议包含五个独立的通信通道:地址读(AR)通道地址写(AW)通道读数据(R)通道写数据(W)通道写响应(B)通道传统AXI互连的微架构,其中FIFO队列用于管理不同端口的事务。这种设计虽然简化了硬件实现,但存在“优先级倒置”的问题,即低优先级事务可能阻塞高优先级事务。这些通道通过标准化信号进行通信,保证了主设备和从设备之间的数据交换。
2024-09-10 14:56:39 1048
原创 操作系统/体系结构论文导读(四十二):Bridging the Pragmatic Gaps for MCSs in the Automotive Industry 22‘TCAD
MSRP是一种多处理器资源共享协议,用于管理共享资源的访问,协议通过。
2024-09-09 16:26:56 1150
原创 操作系统/体系结构论文导读(四十一):Re-Thinking Mixed-Criticality Architecture for Automotive Industry 20‘ICCD
理论模型与工业标准的差异: 本文通过系统架构的角度,正式分析并阐述了混合关键性系统(MCS)理论模型与工业标准之间的差异。传统的理论模型(例如AMC模式)在工业中的实际应用受限于这些差异,尤其是在安全性方面的要求,如分区、隔离和运行时安全分析。Z-MCS架构: 文章提出了一个通用的工业级架构,称为Z-MCS,它是在传统AMC模型基础上构建的,并且满足了工业安全标准的额外需求,包括分区隔离和运行时安全分析。该架构旨在缩小理论与实际应用之间的差距。实验结果可调度性下降。
2024-09-09 15:14:03 1748
原创 操作系统/体系结构论文导读(四十):A High-Resilience Imprecise Computing Architecture for MCSs(TC-23‘)
首先,文章引入了时间分析(RTA, Response Time Analysis)的概念,来确定给定任务集在约束的截止时间内是否可调度。随着中模式(MID-mode)的引入,模型和分析必须根据新的设计进行调整。这里,系统的可调度性分析基于双关键性分析(dual-criticality analysis),并且低关键性任务在中模式下的执行时间比在低模式下更短。目的:在系统中引入中模式后,文章希望通过分析和优化,确保系统在执行不同任务时可以按时完成任务,并优化系统的整体效用。
2024-09-09 13:36:46 1012
原创 体系结构论文导读(三十九):Toward an Analysable, Scalable, Energy-Efficient I/O Virtualization for MCS(2022‘TCAD)
首先,文中定义了一个 I/O 任务的。
2024-09-07 16:51:32 1192
原创 体系结构论文导读(三十八):MCS-IOV: Real-Time I/O Virtualization for Mixed-Criticality Systems (2019‘ RTSS)
文章介绍了MCS-IOV系统的设计,它通过硬件虚拟化技术,在空间、时间和故障隔离方面提供了保障。这个系统能够根据输入/输出的使用情况自动调整资源管理,并在发现异常的I/O行为时进行模式切换,以确保系统及时响应。: 当前的解决方案无法同时满足以上三个要求。因此,本文提出了一种新的I/O管理框架——MCS-IOV,基于硬件辅助的虚拟化技术,实现了时间和空间的隔离,并阻止了故障传播,同时对性能的影响非常小。
2024-09-07 16:02:54 1135
原创 体系结构论文导读(三十七):Accurate Neuron Resilience Prediction for a Flexible Reliability Management in Neural
准确的神经元弹性预测,实现神经网络加速器中灵活的可靠性管理。
2024-08-07 17:16:39 581
原创 体系结构论文导读(三十六):Boosting Bit-Error Resilience of DNN Accelerators Through Median Feature Selection
脉动阵列是一种常用于深度学习加速器的架构,由乘加单元(MAC单元)组成的二维网格构成。每个MAC单元负责接收和处理部分和,执行乘法和累加操作,然后将结果传递给下一个MAC单元。该架构通过流水线操作,实现高效的并行计算。
2024-08-06 20:50:41 1104
原创 体系结构论文导读(三十五):Improving Reliability of Soft Real-Time Embedded Systems on Integrated CPU and GPU
本文的问题来源于诸如车载信息娱乐系统等应用。这类系统具有软截止时间、温度、寿命可靠性和软错误可靠性要求。采样窗口(Sampling Window, W):定义为温度可以被视为常数的时间间隔。在采样窗口内不允许任务迁移。剖析窗口(Profiling Window):由多个等长的采样窗口组成,用于估计寿命可靠性。假设一个剖析窗口由n个采样窗口组成,MPSoC有m个CPU核心和一个GPU。我们的目标是在每个剖析窗口中最大化系统级软错误可靠性,并在每个采样窗口中满足设计约束。
2024-08-06 17:58:52 776
原创 体系结构论文导读(三十四):Design of Reliable DNN Accelerator with Un-reliable ReRAM
这篇文章主要讨论了一种在不可靠的ReRAM(阻变存储器)设备上设计可靠的深度神经网络(DNN)加速器的方法。文章提出了两种关键技术来解决ReRAM固有的不可靠性问题:动态定点(DFP)数据表示和设备变异感知(DVA)训练方法。背景介绍:挑战:提出的方法:深度神经网络(DNN):基于ReRAM的DNN加速器:ReRAM设备的变异性: 在深度神经网络(DNN)中,不同层的参数范围可以有很大差异。对于AlexNet训练的CIFAR-10数据集,第一层卷积层的参数范围比后面的全连接层大10倍。传统的固定点数据格式
2024-08-05 20:40:46 895
原创 体系结构论文导读(三十三):Exploration of Activation Fault Reliability in Quantized Systolic Array-Based DNN Acce
基于量化脉动阵列的 DNN 加速器激活故障可靠性的探索。
2024-08-05 17:14:18 664
原创 体系结构论文导读(三十二):INVITED: Building Robust Machine Learning Systems: Current Progress, Research Challeng
构建强大的机器学习系统:当前进展、研究挑战和机遇。
2024-08-04 20:58:17 649
原创 体系结构论文导读(三十一)(下):Soft errors in DNN accelerators: A comprehensive review
本部分回顾和分析了有关人工神经网络(ANN)可靠性的研究。特别是关注通过DNN加速器解决DNN可靠性的研究,从软错误的角度进行探讨。许多前期工作声称ANN本身对故障具有固有的容错能力。然而,在硬件(加速器)层面,单事件翻转(SEU)和单事件瞬变(SET)等错误可能发生在执行硬件中,削弱DNN的固有容错能力。因此,加速器比其他电子设备更容易受到瞬态故障的影响,因为其并行性会将单个故障传播到多个输出元素。
2024-08-04 17:24:47 1084
原创 体系结构论文导读(三十一)(上):Soft errors in DNN accelerators: A comprehensive review
Soft errors in DNN accelerators: A comprehensive reviewDNN 加速器中的软错误:全面回顾深度学习任务覆盖了广泛应用。DNN算法被实现于不同系统上,从小型嵌入式设备到数据中心。DNN加速器(例如GPU、FPGA、ASIC)因为其效率比CPU高而成为DNN算法的主要执行硬件。然而,这些加速器容易受到多种故障的影响,其中软错误特别具有威胁性,因为高水平的并行性可能会将单个故障传播成多个错误,最终影响模型预测的输出。本文对DNN加速器的可靠性进行了全面的综述,
2024-08-04 17:02:58 1187
原创 体系结构论文导读(三十):FSA: An Efficient Fault-tolerant Systolic Array-based DNN Accelerator Architecture
架构组成FSA设计包括一个基于Systolic的中央阵列(CA),片上缓冲器和一个统一的重新计算模块(RCM)。Systolic阵列由256×256个处理单元(PEs)组成,并部署了多种数据流:输出固定(OS),权重固定(WS),输入固定(IS)。数据流的选择数据流的选择揭示了在空间和时间上数据操作数(输入、权重或输出)的重用类型。在DNN推理阶段,输入(激活值和权重)预先从片外存储器加载到输入缓冲器中,然后流入CA的PE阵列。
2024-08-04 15:28:29 845
原创 体系结构论文导读(二十九)(下):A survey on modeling and improving reliability of DNN algorithms and accelerators
不同的DNN组件对整体系统的贡献不同,因此保护的重点应有所区别。例如,某些神经元或位对最终输出的影响较大,因此需要更强的保护。为了减少保护开销,可以将高关键性的组件存储在更可靠的硬件区域中,或使用强保护机制,如三模冗余(TMR)仅用于最关键的层。
2024-06-27 18:42:31 863
原创 体系结构论文导读(二十九)(上):A survey on modeling and improving reliability of DNN algorithms and accelerators
表4展示了在DNN中哪些组件的可靠性被研究过,以及哪些因素对其可靠性产生影响。(1) 增加BER的影响BER(比特错误率)增加会显著影响DNN的准确性。许多DNN在BER低于某个阈值时,准确性几乎不受影响,但一旦超过这个阈值,准确性就会呈指数下降。BER增加不仅会导致更多的数据值出错,还会增加数据值变化的幅度。变化幅度越大,输出错误的可能性越高。(2) 评估使用的指标为了定量评估DNN的可靠性,研究人员使用了不同的指标,这些指标在不同场景和DNN中提供了互补的见解。分类准确性(用于图像分类DNN)
2024-06-27 18:13:54 1060
原创 体系结构论文导读(二十八):DRQ: Dynamic Region-based Quantization for Deep Neural Network Acceleration
首先设计一个预测算法来定位输入特征图中的敏感区域。对目标特征图执行均值滤波,然后使用阶跃激活函数生成二进制掩码,从而区分输入特征图中的敏感和不敏感区域。提出了一种用于推理计算的混合精度卷积,根据输入特征图的敏感度在运行时调整卷积核精度。例如,当卷积核滑过敏感区域(图4中的绿色块)时,卷积进入高精度模式,对权重和输入特征图进行细化量化。否则,卷积在不敏感区域(图4中的粉色块)使用低精度模式。DRQ算法需要根据输入特征图的值进行动态混合精度卷积,而这些值无法像权重那样离线学习。
2024-06-26 19:47:14 870
原创 体系结构论文导读(二十七):Mixed Precision Quantization for ReRAM-based DNN Inference Accelerators
动作定义为DNN每层的量化配置,包括权重量化、输入量化和ADC精度。每个参数的可能值详见表2。
2024-06-26 18:58:04 675
原创 操作系统/体系结构论文导读(二十六):Pythia-MCS: Enabling Quarter-Clairvoyance in I/O-Driven Mixed-Criticality Systems
安全关键系统对生命关键应用至关重要。在这些系统中,将不同关键性等级的组件集成到共享硬件平台上变得越来越重要。在双重关键性MCS中,有两个关键性等级(高和低),并且任务的WCET估计具有不同的置信度。高关键性WCET(HI-WCET)非常保守,但可信度高;低关键性WCET(LO-WCET)则不那么保守,但可信度较低。模式切换是关键策略,当任务未能在LO-WCET内完成时,系统切换到高关键性模式(HI模式),此时假设高关键性任务可能会超过其LO-WCET,但不会超过其HI-WCET。I/O监控单元(IMU)
2024-06-17 18:04:41 817
原创 操作系统/体系结构论文导读(二十五):HIART-MCS: High Resilience and Approximated Computing Architecture for Imprecise
在上下文切换期间,执行监视器暂停当前执行任务的计时器,然后重新激活下一个执行任务的计时器,以监控LO-WCETs和MID-WCETs的超时(算法2:第10-11行)。HIART-MCS框架通过硬件级别的近似计算,在中间模式(MID-mode)下继续执行低关键性任务,从而在高关键性任务超时时延长低关键性任务的“生命周期”。一个有趣的结果是在EX阶段,控制指令和定点计算通常需要相对较少的时钟周期,而浮点计算则占用了显著更多的时钟周期,这主导了整个指令的执行时间。这些阶段基本上决定了指令和任务的执行时间。
2024-06-17 16:11:55 620
原创 操作系统论文导读(二十四):Balancing Energy Efficiency and Real-Time Performance in GPU Scheduling
GPU的流行和应用:如今,GPU因其卓越的性能在嵌入式平台上已经非常流行。将需要大量计算和并行处理的任务卸载到GPU上,可以显著提升网络物理系统和自主应用的性能。实时多任务的重要性:实时多任务处理是开发这种GPU加速应用的基本前提。例如,用户可以创建多个流,并将独立的内核分配到这些流中以实现并行内核执行,从而实现加速并提高GPU资源效率。
2024-06-16 19:56:56 630
原创 操作系统论文导读(二十三):Priority Assignment on Partitioned Multiprocessor Systems With Shared Resources
具体来说,文章讨论了三种主要的优先级分配算法——截止时间单调优先级排序(DMPO)、Audsley的最优优先级分配(OPA)和鲁棒优先级分配(RPA)——在多处理器系统中的应用,并提出了一种新的基于松弛的优先级排序算法(SPO)。其中,G(rk)表示需要资源rk的任务集合,ck是执行与资源rk相关的最坏情况成本,函数map()返回给定任务分配的处理器集合,| |返回给定集合的大小。正如公式所示,抖动间隔(即,Rh和Rj)被包括在内,以延长任务释放的持续时间,从而提供一个安全的上限。
2024-06-15 21:14:27 693
原创 操作系统论文导读(二十二):Future Aware Dynamic Thermal Management in CPU-GPU Embedded Platforms
在给定的超周期H中,我们考虑一组OpenCL内核 KH={κix,y∣x∈[1,M],y∈[1,Nx],i∈[1,H/πx]},它包含了超周期H中所有应用程序的所有OpenCL内核实例。每个应用程序 Ax 用四元组表示 (πx,Dx,ax,Kx),其中 πx 是周期,Dx 是相对截止时间,ax 是到达时间,Kx 是一组数据并行的OpenCL内核,按有向无环图(DAG)排列。图2中的实验结果显示,通过未来感知的热感知调度,平台的峰值温度显著降低,同时在保持较低温度的情况下达到了所有内核的截止时间。
2024-06-12 18:52:07 597
原创 操作系统论文导读(二十一):LaLaRAND: Flexible Layer-by-Layer CPU/GPU Scheduling for Real-Time DNN Tasks
LaLaRAND是一个层级的CPU/GPU调度框架,能够透明和灵活地调度每一层DNN任务到CPU或GPU。CPU和GPU执行的不平衡如前所述,CPU和GPU在执行DNN任务时性能不平衡,这会导致资源利用率低下和任务调度难度增加。资源分配模型单一传统的资源分配模型通常采用粗粒度分配,一个任务只能使用一种资源(CPU或GPU),这限制了系统的灵活性和效率。CPU和GPU内存空间分离CPU和GPU通常具有独立的内存空间,这使得在两者之间切换任务时需要额外的开销来保持数据一致性。缺乏系统级调度决策。
2024-06-12 16:34:02 644
原创 操作系统论文导读(二十):Making Powerful Enemies on NVIDIA GPUs
现代图形处理器(GPU)由于其强大的并行计算能力,越来越多地被用于安全关键的实时系统中,比如自动驾驶车辆。这些系统中的任务通常需要高性能计算,因此GPU成为了理想的计算资源。但是,在同一个GPU上并行执行多个计算任务(称为“内核”)会导致资源争夺问题,进而使得任务的执行时间变得不确定,这种现象被称为“干扰通道”。我们引入了一种生成和测量干扰通道的方法,这些通道可能会影响与未知内核同时竞争设备资源的受害者程序。
2024-06-11 18:19:13 1018
python tkinter写的记事本(代码行数400+,各种tkinter均使用了)
2022-07-03
python学生管理系统+报告(含文件操作,400+行,封装10余个函数)
2022-07-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人