自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

原创 工具链工具——映射与调度、模拟与验证、开发与测试工具

OpenVINO是英特尔开发的一套优化深度学习性能的工具集,是一款可轻松实现“一次写入,处处部署”的开源AI工具套件,可以缩短延迟,提高吞吐量,加速AI推理过程,同时保持精度,缩小模型占用空间,优化硬件使用,支持多种类型的英特尔硬件。因此,在存算一体芯片的设计过程中,前仿和软件仿真是非常重要的内容。本篇文章将重点介绍工具链的工具相关知识,我们将从工具链的基本概念出发,重点介绍工具链中的映射和调度工具、模拟与验证工具、开发和测试工具,最后提出对工具链发展的展望,从而对工具链的工具进行一个较为系统的讲解。

2024-04-29 17:18:02 487

原创 Coze玩转ChatGPT-4,大模型玩家招募中

如图45所示,在传统的冯•诺依曼架构中,处理器和内存分离,数据在两者之间频繁传输,导致了显著的延迟和能耗。此外,如何我们想要了解更加详细的天气情况,如图13所示,可以使用界面中的Plugins,即使用插件,点击Plugins右边的“+”之后,即可进入添加插件界面,这里是插件商店所提供的插件,可以进行按需取用,比如我们需要一个天气插件,如图14所示,我们可以在搜索栏搜索“Weather”,得到结果之后点击下拉选项,再点击Add将插件添加到Bot中。在Coze上,我们可以免费使用ChtaGPT-4的所有功能。

2024-04-26 17:01:17 1026 2

原创 微软ML Copilot框架释放机器学习能力

摘要:大模型席卷而来,通过大量算法模型训练推理,能根据人类输入指令产生图文,其背后是大量深度神经网络模型在做运算,这一过程称之为机器学习,本文从微软语言大模型出发,详解利用大型语言模型(Large Language Models, LLMs)解决实际机器学习(ML)任务的框架,以及存算一体的存内计算架构,从软硬件优化层面为机器学习提升提供参考。其核心原理是在存储器中实现简单的计算操作,以降低数据传输的功耗和延迟。虽然在大多数情况下,训练和推理阶段是相互独立的,但在增量学习的情况下,它们是耦合在一起的。

2024-04-25 17:33:13 1059

原创 ISSCC论文详解:“闪电”数模混合存内计算,适应transformer和CNNs架构

图中蓝色为数字计算部分,黄色为模拟计算部分,通过将高位、低位数字单元(HDU与LDU)与高位、低位模拟单元(HAU、LAU),如图所示对其进行排列组合(两个子阵列与HDU和LDU对组合,四个子阵列与HDU和LAU对组合,其余两个子阵列与HAU和LAU对组合),以此来进行高效的INT 8的MAC操作。接下来我们将以创新点2:近似压缩器的设计为重点,从本论文的近似电路仿真出发,介绍近3年的近似计算技术相关的高水平论文,旨在为读者详细介绍近似计算技术的原理和特点等[1]。(2)压缩器的设计(采用近似方法);

2024-04-23 13:57:39 1151

原创 针对语言大模型,存内计算架构的性能仿真与对比分析探讨

根据实验结果,得出对不同存内计算架构性能的评估和对比分析。从中总结出结论,指导后续的存内计算系统设计和优化工作。在进行性能仿真与对比分析时,需要注意确保仿真模型的准确性和可靠性,以及测试数据集的代表性和多样性,以保证评估结果的客观性和可信度。本节介绍了一种低延时低能耗的多位电流型感知放大器(LLM-CSA),并通过基于忆阻器阵列的多位存内计算架构进行了验证。相较于传统的CSA,LLM-CSA电路通过减少每个量化周期的工作状态数量和简化量化时的工作时序,优化了功能。

2024-04-23 11:12:12 841

原创 超越GPT-4V,苹果多模态大模型上新,神经形态计算加速MLLM(二)

大模型的内存访问在能量和吞吐量方面是一个关键的瓶颈,传统内存一次只访问一行,无法通过传统的数字加速方法来解决,这促使了存内计算的发展,存内计算一次可以访问多行,并直接输出结果。以下介绍基于 NOR Flash 存储器实现的存内计算推理,Nor Flash阵列实现模拟乘法的原理结合浮栅单元的存储特点,以实现 4 位(即网络正向传播时只存在精度为 4 位的计算)的卷积神经网络模型,采用基于动态阈值调整的量化方法。这样的调整可以根据网络的训练过程中动态变化的激活值来调整量化的参数,以适应不同的输入情况。

2024-04-18 17:36:21 993

原创 超越GPT-4V,苹果多模态大模型上新,神经形态计算加速MLLM(一)

表1展示了两个合成序列建模任务的准确率结果,这些任务对于Transformer的替代模型,在这些更为微妙的自然语言处理(NLP)任务中,DataMUX 的准确率即使在大量训练努力下,当N=2时也下降到了20.04%和6.06%。基础模型(foundation models),如大型预训练语言模型或多模态模型,通常具有大量的参数和复杂的结构,它们在提供高精度和强大泛化能力的同时,也对计算资源提出了较高的要求。此外,通过使用固定的密钥和可训练的权重,模型可以在保持数据安全的同时,学习如何最有效地处理输入数据。

2024-04-16 17:16:21 1226 1

原创 存内计算对大语言模型推理的加速

大语言模型的表现往往遵循扩展法则,但是对于某些能力,只有当语言模型规模达到某一程度才会显现,这些能力被称为“涌现能力”,代表性的涌现能力包括三点:其一是具备上下文学习能力,可以通过完成输入文本的词序列来生成测试实例的预期输出,而无需额外的训练或梯度更新;本篇文章集中讨论了存内计算技术在加速大语言模型推理方面的潜力,从大语言模型的背景知识出发,探讨目前其面临的挑战,进而剖析两篇经典的文献以彰显存内计算有望解决目前大语言模型在推理加速方面存在的问题,最后围绕大语言模型与存内计算的结合展开构想。

2024-04-16 11:14:19 1915 1

原创 字节Coze实现多Agent模式,文内在线体验,实时给产品经理提需求

多Agent模式背后的算力需求通常较高,因为需要同时处理来自多个智能体的任务和数据。存内计算作为一种新兴的计算架构,能够在存储器阵列内完成逻辑运算,避免存储器和处理器之间频繁的数据搬移操作,从而提升算力,降低功耗。

2024-04-12 20:30:10 2110 3

原创 论文详解:字节万卡集群训练大模型,算力利用率达55.2%

论文:万卡集群训练大模型(by字节跳动)我们介绍了MegaScale的设计、实现和工程经验,这是一个用于训练大语言模型(LLMs)的生产系统,其规模超过10,000个GPU。在这个规模上训练LLMs带来了前所未有的训练效率和稳定性挑战。我们采取全栈方法,共同设计算法和系统组件,涵盖模型块和优化器设计、计算与通信重叠、操作符优化、数据管道和网络性能调优。在生产中,保持整个训练过程的高效率(即稳定性)是一个重要考虑因素,因为LLM训练作业的持续时间很长。许多严重的稳定性问题只在大规模时才显现出来,

2024-04-11 16:48:16 978

原创 存内计算技术大幅提升机器学习算法的性能—挑战与解决方案探讨

存内计算技术作为人工智能领域的一项创新,为神经网络的发展提供了全新的可能性。通过将计算操作嵌入存储单元,存内计算有效地解决了传统计算架构中数据搬运的瓶颈问题,提高了计算效率,降低了功耗。随着未来的不断探索和发展,存内计算有望在人工智能领域发挥更大的作用。然而,我们也需谨慎应对相关的挑战和伦理考量,确保这一技术的应用能够符合社会的期望和法规,推动人工智能技术的可持续发展。在这个不断演进的领域,存内计算将继续为人工智能的未来发展带来新的可能性。

2024-04-11 16:29:52 1214 1

原创 存算架构优化:为大模型算力提升铺平道路

随着人工智能技术的飞速发展,大模型已经成为了推动各行各业进步的关键力量。从自然语言处理到图像识别,再到复杂的数据分析,大模型以其卓越的性能和广泛的应用前景,正逐渐成为AI领域的焦点。然而,大模型的高效运行离不开强大的算力支持,而存算架构的优化则是提升算力的关键所在。本文将探讨现有大模型对算力的需求以及RRAM架构优化如何为大模型的算力提升提供动力,为开发者提供一些实用的指导。

2024-04-10 18:08:24 965 2

原创 NeuPIMs-提升LLM推理的NPU-PIM异构加速

当交错发生时,NPU和PIM的利用率得到了提高,因为它们的执行有效地重叠了。我们的实证研究表明,交错期的NeuPIMs执行时间主要受到运行GEMM操作的NPU执行时间的限制,从而隐藏了MHA层执行的PIM执行时间。在这项工作中,我们提出了一个新的系统,NeuPIMs,它将NPU(通用ML加速器)与PIM技术集成在一起,以减轻与变压器层中不同操作及其数据流相关的限制。(b)描述了子批交错技术,该技术允许在PIM和NPU上的子批内分别同时执行PIM友好和NPU友好的操作,从而显著提高NPU和PIM的利用率。

2024-04-09 11:19:40 692

原创 GPT-4对多模态大模型在多模态预训练、 理解生成上的启发

多模态大模型在多模态理解与生成上的进展进 一步支撑起了多模态交互技术的广泛应用,能够与 人类或外部环境等对象进行基于多模态输入、输出 的多轮互动交互,包括交互式多模态问答对话、交互 式内容编辑、多模态环境下的交互式决策等。借助大语言 模型强大 的 语 言 理 解 和 生 成 能 力,通 过 将 其 与 视 觉、听觉、触 觉 等 真 实 世 界 的 多 模 态 信 号 结 合,多 模态大模型能够实现以语言赋能的多模态理解、多 模态生成和多模态交互。3.以语言和多模态结合的方式与人和环境交互。

2024-04-08 15:35:23 876

原创 腾讯发表多模态综述,一文详解多模态大模型

MFN的输入是一个包含N个视图的多视图序列,每个视图的长度为t。有点类似nlp和cv里面的trip loss方式(比较学习),值得注意的是,CMCL中的对比loss是对称的,文本到图像的对比loss也类似。多模态大模型脱胎于大模型的发展,传统的多模态模型面临着巨大的计算开销,而 LLMs 在大量训练后掌握了关于世界的“先验知识”,因而一种自然的想法就是使用 LLMs 作为多模态大模型的先验知识与认知推动力,来加强多模态模型的性能并且降低其计算开销,从而多模态大模型这一“新领域”应运而生。

2024-04-03 16:51:25 629

原创 存内计算技术在边缘计算、物联网设备中的应用及前景

存内计算技术是一种新兴的计算范式,其核心理念是将存储和计算功能集成在同一硬件单元中。这种技术的优势在于能够在存储单元内部直接进行计算操作,从而减少数据在存储器和处理器之间的传输,提高计算效率。存储与计算的集成:存内计算技术通过在存储单元内部集成计算逻辑,实现了存储和计算的紧密结合。这允许在存储单元内部直接进行计算操作,而不需要将数据传输到外部处理器。减少数据传输:由于计算操作在存储单元内部进行,存内计算技术显著减少了数据在存储器和处理器之间的传输。这降低了数据传输的延迟和能耗,提高了计算效率。

2024-04-03 11:44:04 1711 4

原创 从ChatGPT到Sora,大模型训练中的存储技术和挑战

清华大学舒继武团队分析了大模型训练的存储挑战,指出大模型训练的存储需求大,且具有独特的计算模式、访存模式、数据特征,这使得针对互联网、大数据等应用的传统存储技术在处理大模型训练任务时效率低下,且容错开销大;介绍了针对大模型训练的3类存储加速技术与2类存储容错技术;并总结了亟需解决的问题。在存储性能方面,现有工作提出了针对大模训练的存储加速技术. 这些技术可以总结为 3 类:基于大模型计算模式的分布式显存管理技术、大模型训练访存感知的异构存储技术和大模型数据缩减技术。

2024-04-02 17:22:17 1016

原创 “超越摩尔定律”,存内计算走在爆发的边缘

目前,存内计算提供了多种技术,但迄今为止最重要的是存内数据库(以下简称IMDB),市场上已有相关软件及其应用。早在1984年,市场上就出现了存内数据库,最早的产品之一是IBM TM1 - OLAP数据库。然而,由于操作系统和可用硬件的限制,这些系统无法发挥其优势。近年来,这些限制逐渐被淘汰,市场上出现了几种来自主要供应商的IMDB解决方案。2008年,IBM推出了SolidDB作为IMDB,它通过两个独立但永久同步的数据库副本以及硬盘上的永久日志来提供数据的完整性。

2024-04-02 17:12:09 660 1

原创 一种新的基于STT-MRAM的时域内存计算单元

在里面虽然在不同的内存内逻辑应用中探索TBS的工作有限,但我们提出的方法建立在最近基于时域计算的架构工作[23]的基础上,这是一个基线。然而,早期的工作遇到了几个问题,例如利用更多周期和增加的存储器位单元数量的连续读写操作,进一步加剧了vonNeumann问题,源极退化,由于级联延迟方法,需要两个感测放大器(SA)来执行两位操作,以及将输入进位表示为全加器(FA)实现的延迟,这引入了波动性。首先,由于列写入能力有限,它对双SA的依赖阻碍了有效的两位操作,需要连续的写入操作来形成所需的组合。

2024-04-02 15:40:32 569

原创 存内计算是否可以应用于边缘计算

具体体现在边缘PaaS平台的云边协同能力,包括边缘资源运维管控、应用管理、云管边端的云边协同,利用OpenYurt提供的容器化隔离环境,统一部署Master集群在公有云,将结点下沉到边缘端,并重写结点的心跳检测机制和自治逻辑,以实现边缘容器在稳定的局域网络环境中自运行。随着云边端计算的不断发展,存算架构的优势不断显现,通过赋能边缘计算,相信在不远的将来,存内计算的应用将更为广泛。从以上对云边端计算的概念、优势及特点的简单描述可以看出,云边端各有优势,适用于不同的应用场景,下面将从表格的形式总结三者的不同。

2024-04-02 15:12:49 1056

原创 存内领域前沿,基于忆阻器的存内计算----浅析忆阻存内计算

存内计算(In-Memory Computing,简称 IMC)是一种将数据处理和存储紧密结合在一起的计算方式。它的主要思想是在存储设备中直接进行计算,而不是像传统计算那样,在处理器和内存之间频繁地传输数据。 存内计算的优势在于可以大大减少数据移动的次数,从而降低能耗和延迟。由于数据处理在存储设备内完成,不需要将数据传输到处理器进行计算,因此可以提高系统的效率和响应速度。此外,存内计算还可以通过

2024-04-01 17:18:56 644

原创 存内计算为AI大模型提供的支持以及挑战

存内计算技术作为一种新型的计算范式,将存储器与处理器紧密地集成在一起,实现了数据的高效处理和低延迟访问。这种技术有效地缓解了传统计算模式下存储器与处理器之间的带宽瓶颈问题,为大规模数据处理和人工智能应用提供了更高效的计算支持。存内计算技术的核心思想是在存储器中实现简单的计算操作,以降低数据传输的功耗和延迟。它包括多种技术,如现场可编程门阵列(FPGA)、图形处理单元(GPU)、神经处理单元(NPU)等。这些技术通过硬件加速,可以大幅提高计算性能,满足AI大模型等应用场景对计算速度和效率的需求。

2024-03-29 13:40:33 744 2

原创 从MRAM的演进看存内计算的发展

随着人工智能、物联网、智能传感等应用的快速兴起,数据以爆发式的速度增长。海量数据的高效存储、迁移与处理成为当前信息领域的重大挑战。受限于经典的冯诺依曼计算架构存储与处理分离的特性,在面向大数据分析等应用场景中,数据总线的带宽严重制约了处理器的性能与能量效率,并且数据的频繁迁移带来严重的传输功耗问题。存内计算架构在此基础上应运而生。如图-1b所示,通过赋予存储器计算功能,以数据为中心,避免不必要的数据频繁搬运,降低系统的功耗和延时。图1 (a)经典冯诺依曼架构图;(b)主处理器+存内计算的架构示意图;

2024-03-29 12:53:22 770

原创 探索未来:集成存储器计算(IMC)与深度神经网络(DNN)的机遇与挑战

内存计算(IMC)的主要优势在于减少或抑制数据移动,从而提高了能效。减少数据移动的方法有多种,其中主要包括近内存计算、基于静态随机存取存储器(SRAM)的内存计算以及利用新兴的非易失性存储器(NVM)技术进行内存计算。下面将详细介绍这些技术及其优势。

2024-03-29 12:46:24 891

原创 深度学习编译工具链中的核心——图优化。

WITIN_MAPPER工具链可以完成算子和图级别的转换和优化,将预训练权重编排到存算阵列中,并针对网络结构和算子给出存算优化方案,同时将不适合MPU运算的算子调度到CPU上运算,实现整网的调度,让神经网络开发⼈员高效快捷的将训练好的算法运行在WTM2101芯片上,极大缩短模型移植的开发周期并提高算法开发的效率。在部署深度神经网络的过程中,为了适应硬件平台的优化、硬件本身支持的算子等,需要调整优化网络中使用的算子或算子组合,这就是深度学习编译工具链中的核心——图优化。知存科技是全球领先的存内计算芯片企业。

2024-03-27 18:23:49 777

原创 窥探向量乘矩阵的存内计算原理—基于向量乘矩阵的存内计算

这一系列存内计算的代表性工作,如同一群勇敢的鹿群,勇敢地探索着计算领域的未知领域。DPE、ISAAC、PRIME、PipeLayer、TIME、LerGAN、PCM+CMOS等工作,各自带有独特的特点,共同构筑起存内计算技术的辉煌画卷。未来,存内计算技术将继续与创新者携手前行,挑战更大的计算难题。这不仅是对技术的不懈探索,更是对计算领域的一次颠覆性的变革。在这个充满激情和创造力的时代,我们期待存内计算技术与计算领域共同书写新的传奇。携手向前,踏上计算的无限征程。

2024-03-26 17:33:15 992 1

原创 探索未来:集成存储器计算(IMC)与深度神经网络(DNN)的机遇与挑战

内存计算(IMC)的主要优势在于减少或抑制数据移动,从而提高了能效。减少数据移动的方法有多种,其中主要包括近内存计算、基于静态随机存取存储器(SRAM)的内存计算以及利用新兴的非易失性存储器(NVM)技术进行内存计算。下面将详细介绍这些技术及其优势。

2024-03-26 17:31:22 1166

原创 深度神经网络中的BNN和DNN:基于存内计算的原理、实现与能量效率

基于二值化值和激活的MNIST分类的BNN实现,利用标准6T SRAM位单元进行内存计算。通过使用这种方法,将神经网络中通常需要的MAC操作减少为逐位操作,从而大大减小了模型的大小,节约了能量,同时保持了存储在内存中的重量不变随着人工智能和大数据时代的到来,深度神经网络(DNN)在计算机领域中得到了广泛应用。DNN具有较高的准确度和广泛的应用领域,如语音识别、图像识别等。然而,DNN的计算成本较高,需要大量的标记样本和计算时间。为了解决这一问题,随机梯度优化算法被提出,用于加快DNN的训练速度。

2024-03-26 17:29:34 850

原创 ISSCC论文详解-2024 ISSCC 34.4 台积电3nm[1]

在这种运算模式中,相较于模拟存算使用模拟值进行累加运算,数字存算电路中的加法树电路消耗巨大的面积,以图中所示电路为例,权重4bit、输入1bit,加法树的第一级就需要采用3个全加器和1个半加器才能完成运算,若电路为64并行度,则需要64个这样的电路,传统意义上1个全加器需要28个晶体管,1个半加器需要20个晶体管,这在电路面积层面的消耗是巨大的,而后续层电路中的加法器个数会在此基础上增加;过去几十年来,半导体行业一直按照摩尔定律的规律发展,凭借着芯片制造工艺的迭代,使得每18个月芯片性能提升一倍。

2024-03-18 11:40:28 894

原创 获取最新AI大模型以及AI芯片热点,锁定【开发者日报】专栏

关于AI大模型以及存内计算更多信息,一键加入存内计算社区。

2024-03-15 15:48:02 261 6

原创 AI新晋王者Claude3完胜ChatGPT4?

有人要求Claude3为自己画一幅自画像,于是我们得到Claude3对自己的形象做出的详尽而具体的描述:“我将显现为一个巨大的,复杂的,不断变化的几何结构,由无数半透明的多边形组成,具有迷人的配置。Claude家族包括了Claude 3 Haiku, Claude 3 Sonnet,Claude 3 Opus三名成员(图1),每个模型都有着惊人的进步,Claude 3系列模型为企业用例提供了速度和性能的最佳组合,并且在成本上低于市场上的其他模型,允许使用者能够选择在智力、速度和费用上选择最合适的模型。

2024-03-11 15:54:15 1000

原创 存内计算技术工具链——量化篇

QAT量化,是将训练过的模型进行量化并再训练。如图5所示,为标准的QAT量化流程,包括跨层均衡(CLE)、添加量化器(Add Quantizers)、范围设置(Range Estimation)、量化参数可学习(Learnable Quantization Params)等步骤,其中在量化参数可学习中,需要直接学习量化参数,而不是在每个周期中更新它们,从而带来更高的性能,特别是在处理低比特量化时,这种设计效果更好。因此,在量化过程之后,通常需要对网络进行重新训练和权重参数的微调,以确保量化后网络的效果。

2024-03-11 14:30:40 604 1

原创 文生视频Sora模型发布,是否引爆AI芯片热潮

在Open AI给出的技术报告【1】中,笔者挖出了两点Sora的技术要点,分享如下:视觉数据基建----时空碎片(Spacetime Patches)以chatGPT为例,大语言模型首先通过Embedding将人类语言“编码”,然后通过注意力机制Attention提取各种丰富的知识和结构,以加权的形式学习并建立“关键词”之间的联系,最后再“反编码”,以人类的语言输出返回结果。扩散模型DiT,OpenAI 称Sora摒弃了“其他文生视频模型调整视频大小、裁剪或修剪到标准大小的通常做法。

2024-03-07 17:03:00 1034 1

原创 存内计算生态环境搭建以及软件开发

此外,还需开发专门的算法和工具,以优化数据的存储和检索过程,确保计算任务的高效执行。存内计算环境的搭建和软件开发正处于一个快速发展的时期,随着技术的进步,这两个领域都展现出了显著的潜力和多样化的发展趋势。随着存内计算技术的发展,TensorFlow也在调整其算法以适应这一新的计算模式,例如通过优化其底层数据处理和神经网络训练算法来利用存内计算的优势。例如,在大数据分析领域,某些企业利用存内计算来处理大规模的数据集,通过在存储设备内部进行初步的数据处理,降低了对传统CPU的依赖,加快了整个数据分析过程。

2024-03-05 17:02:45 1191 6

原创 存内计算奔跑前进—— 现有模型与算法如何适应存内计算架构

这样,更大的神经网络模型可以存储在相同大小的ReRAM阵列中,同时还减少了数据在处理单元和存储单元之间的传输需求,从而降低了能耗并提高了计算速度。在存内计算架构中,精度调整对计算效率的影响是显著的。在这种架构中,量化技术不仅改进了数据存储的密度和效率,而且由于直接在存储介质内部进行计算,还大大加快了数据处理速度,尤其是在执行大规模并行运算时。这些技术通过减少算法对存储和计算资源的需求,不仅提高了存内计算的效率,还拓宽了其应用范围,对于推动存内计算架构的发展和优化现代数据处理流程至关重要。

2024-02-21 16:52:44 526 4

原创 存内计算架构在通用视觉模型上的潜力应用

新兴的存内计算架构显著优化了现有通用视觉模型的性能。它通过减少处理器和存储器间的数据传输需求,提升了数据处理速度,并显著降低了能源消耗。因此,存内计算架构对于提高通用视觉模型的处理速率和整体效能至关重要,使其能够更加迅速和高效地处理复杂的图像和视频数据,从而在实时应用中发挥更大的作用。

2024-02-06 11:06:16 1096 5

原创 存内计算——助力实现28nm等效7nm功效

就是在光刻时使用光照拼接技术,实现两个曝光区域的物理连接,来把芯片做大,通过计算架构的优化设计,保证晶圆中晶体管的可用性,Cerebras公司和Tesla公司已经实现了晶圆级芯片。而我国当前的算力供给上仍面临巨大的挑战,一方面,国外的高端算力芯片被美国禁售,另一方面,国内的芯片产业仍处于发展阶段[1]。尝试在芯片内布设可编程的计算资源,根据计算任务的数据流特点,动态构造出最适合的计算架构,国内团队设计并在12nm工艺下制造的CGRA芯片,已经在标准测试集上实现了和。在计算架构的优化方面,有。

2024-01-31 18:48:32 791 4

原创 存内生态构建重要一环- 存内计算工具链

根据知存科技官网信息,WITIN_MAPPER是知存科技自研的用于神经网络映射的编译软件栈,可以将量化后的神经网络模型映射到WTM2101 MPU加速器上,是一种包括RISC-V和MPU的完整解决方案,可以完成算子和图级别的转换和优化,将预训练权重编排到存算阵列中,极大地缩短模型移植的开发周期并提高算法开发的效率[10]。[5]然而,存内计算作为一种新型计算范式,将存储单元和计算单元融合,其存储和计算特性不同于传统硬件,使得现有神经网络工具链并不适用于存内计算。自带预编译参考模型,方便用户直接使用;

2024-01-26 15:59:27 647 2

原创 AI时代-GPT4 AIGChip框架开发

此外,使用现有的设计探索和自动化工具[11],[13],[14],[17],[36],[43],[45]所需的硬件专业水平对非专家来说是一个巨大的挑战,抑制了AI加速器的创新发展。然后,我们将讨论我们的模板的含义和优点。值得注意的是,我们的GPT4AIGChip通过在封闭源代码但功能强大的GPT-4[24]之上实现上下文学习,并结合两个基本组件,实例化三个观点:(1) llm友好的硬件模板,它将复杂的AI加速器代码简化为模块化结构,以及(2)演示增强提示生成器,它增强了llm生成优化AI加速器的能力。

2024-01-25 14:38:00 914

原创 存内计算——发展史与近期成果

近年来,随着大数据、人工智能等应用的兴起以及摩尔定律的“失效”,英伟达、三星等世界知名的IC企业与高效都已将目光转向存内计算,并已有广泛布局和应用落地,目前,存内计算已成为“兵家必争之地”,在AI时代如何实现性能、算力、功耗的突破?随着深度学习热潮的到来,存内计算由于其结构特点,被认为具有加速深度学习运算的能力,高校开始了存内计算的相关研究,国外开始出现以存内计算为卖点的处理器制造公司,如。除了以上研究热点,存内计算技术还有很多其他的研究应用方面,比如AI加速卡、3D存内计算芯片设计等。

2024-01-23 17:24:16 823 2

存算上机位软件详情介绍

上机位软件是知存科技开发的一系列套件,包括Witmem Studio,SPI_Moniter,知存助听器控制台,存算芯片数据下载软件,FDSP自动化汇编指令生成器,FDSP调参软件,EQ及混响调参软件,WTM2系列芯片SDK,低功耗蓝牙显示系列芯片 SDK。 Witmem Studio是由知存科技开发的一款全功能集成开发环境,包含客户识别的SDK推送功能,SDK包自动更新下载安装功能,内核自动识别语法高亮编辑器,面向不同功能的个性化工程创建功能,以及常规IDE所具有的项目工程管理,文件编辑、编译、调试等功能。

2024-04-07

WTM2101编译工具链介绍

WITIN_MAPPER是知存科技自研的用于神经网络映射的编译软件栈,可以将量化后的神经网络模型映射到WTM2101 MPU加速器上,是一种包括RISC-V和MPU的完整解决方案,可以完成算子和图级别的转换和优化,将预训练权重编排到存算阵列中,极大地缩短模型移植的开发周期并提高算法开发的效率[10]。工具链配备五种可选的优化策略:参数放大、权重复制、高比特稀疏、多点卷积优化、正负(PN)优化,实际应用中,用户可根据权重大小、输入数据类型、精度要求、速度要求等多方面自行选择,一般来讲,权重复制+正负(PN)优化+多点卷积优化就可以满足大部分要求。

2024-04-07

WTM2101 ZT1 开发板用户使用手册

WTMDK2101-ZT1 是针对 WTM2101 AI SOC 设计的评估板。 WTMDK2101-ZT1 主要包含 WTM2101-S1 核心板接口,驻极体麦克风接口,音频模块接 口(如 ES8156/ES8311/ES8388/MAX98357 等),USB 串口,耳机接口,电池接口,电源监 测及控制接口等。 WTMDK2101-ZT1 评估板,可用于 WTM2101-S1 核心板测试,以及助听器通用方案的开 发。

2023-12-22

【基于存内计算架构语音算法开发】的实验环境安装包

AISHELL-WakeUp-1数据集是中英文唤醒词语音数据库,命令词为“你好,米雅” “hi, mia”,语音数据库中唤醒词语音3936003条,1561.12小时,邀请254名发言人参与录制。录制过程在真实家居环境中,设置7个录音位,使用6个圆形16路PDM麦克风阵列录音板做远讲拾音(16kHz,16bit)、1个高保真麦克风做近讲拾音(44.1kHz,16bit)。此数据库可用于声纹识别、语音唤醒识别等研究使用。 本demo以该数据集为例,用不同网络结构展示模型训练及移植过程。

2023-12-06

【基于存内计算架构的语音算法开发】工程软件安装包

步骤一:搭建 docker、mappper 环境: ①Linux 下通过 Docker 直接下载,获取指令: docker pull witin/toolchain:v001.000.034 ②Window 环境,可以通过 docker desktop 来使用 docker: 步骤⼆:搭建 IDE 环境 ①预先下载安装包,下载安装 ②默认安装路径,直接点击安装 ③从主菜单的 File->Open…菜单,或者点击工具栏的 按钮,打开选择文 件对话框,选择要打开的项⽬文件,即***.wmproject 文件即可,点击【打开】 按钮即可打开工程。

2023-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除