存算一体开发者-CSDN博客

原创存算一体开发者社区正式上线！重塑 AI 硬件未来，开启算力革命新坐标

当数据洪流遭遇算力瓶颈，存算一体技术正以破局者之姿重构 AI 硬件的未来图景。今天，国内首个聚焦存算一体技术的开发者生态阵地 ——存算一体开发者社区正式上线！这里不仅是技术研发的前沿阵地，更是构建「技术研发 - 产学研协同 - 人才成长」全链路生态的核心枢纽，邀你一同在算力革命的浪潮中抢占开发新坐标！

2025-06-24 17:23:49 703

原创 AI计算提效关键。自适应弹性加速，基于存算架构做浮点运算

本文探讨了自适应弹性加速技术在提升芯片能效比方面的应用。该技术通过动态调整计算资源、功耗模式和硬件功能，实现性能与功耗的优化平衡。在资源层面，异构计算（如ARM的DynamIQ技术）实现核心的动态调度；功耗层面，精细化电源管理（如苹果M系列芯片）实现毫瓦级控制；功能层面，可重构硬件（如FPGA）支持多模态加速。此外，文章还分析了浮点存内计算的自适应精度和可重构功能优势，指出其能效提升潜力，但也面临面积成本高、编译器设计复杂等挑战。总体而言，自适应弹性计算与浮点存算的结合为AI芯片设计提供了新的优化方向。

2025-08-22 12:15:01 1019

原创 Multiverse模型：突破多任务处理和硬件效率瓶颈的AI创新（下）

摘要：杨新宇博士团队针对大语言模型中的冗余计算问题，提出Multiverse并行编码框架，显著提升推理效率。通过将相互独立的上下文并行处理，结合SGLang的RadixCache机制，实现4.5倍推理加速。同时引入APE动态调整策略，在保持98%准确率的前提下支持8万token长文本处理。相比传统自回归模型，该方法在128K token任务中将推理时间从21秒缩短至6秒，突破模型长度限制并维持95%准确率。研究展示了数据特性与硬件能力协同优化的新型架构潜力，为未来缓存机制设计提供新思路。

2025-08-18 16:22:09 559

原创【精彩回顾】浙江大学专场-- 存内计算驱动AI算力与应用生态链创新

AI存内计算技术迎来爆发增长，浙大专场活动聚焦产业生态创新。存内计算技术突破冯诺依曼架构瓶颈，实现成本降70%、功耗降90%的显著优势，预计2025年全球芯片出货量破亿。活动汇聚产学研力量，分享四大核心议题：Rokid展示AR+AI融合技术突破；知存科技解析多模态与存内计算的协同应用；浙大团队演示AI重构工作流实践；Gitcode探讨开源生态价值。存算一体开发者社区已聚集1.4万用户，通过工具开源、训练营和竞赛推动技术落地，加速AI从理论到应用的转化。

2025-08-15 17:13:51 811

原创 Multiverse模型：突破多任务处理和硬件效率瓶颈的AI创新（上）

杨新宇博士提出Multiverse模型，突破传统自回归与扩散模型的局限。该模型创新性地融合数据特性与硬件效率，通过MapReduce机制实现动态并行生成：先规划子任务（Map阶段），并行处理后合并结果（Reduce阶段）。实验显示Multiverse在8K-32K生成长度上效率提升1.3-2倍，且支持批量推理时稳定加速。关键技术包括：结构化数据蒸馏流程、MultiverseAttention机制（兼容Transformer架构），以及基于SGLang优化的推理引擎。该设计使中小团队仅需8张B100显卡和3小

2025-08-15 15:39:22 907

原创 AI沙龙报名 | 存算一体驱动AI应用·线下技术交流会

本次AI沙龙聚焦"存算一体如何赋能大模型应用"，针对当前AI技术面临的算力瓶颈问题，邀请行业专家共同探讨破局之道。活动将于8月10日在北京中关村创业大街举行，通过线下交流碰撞思想火花，推动AI技术创新发展。

2025-08-04 18:50:38 205

原创开发者月报 | 七月存算一体领域大事件

中国科研团队在存算一体AI芯片领域取得多项突破。北大团队首创存算一体排序架构，解决传统架构在非线性排序中的效率问题；复旦与绍芯实验室联合推出两款AI芯片，分别针对LLM离群值适配和片上训练需求；北航团队则通过近似计算等方法，研制出两款高能效芯片，最高能效达3048TOPS/W。这些创新成果将为人工智能应用提供更强大的算力支持。

2025-08-04 18:46:32 306

原创 TCAD论文详解：An End-to-End In-Memory Computing System Based on a 40-nm eFlash-Based IMC SoC

该论文介绍了一个端到端的电路-工具链-系统协同设计框架，通过硬件友好的量化方法、算子优化技术以及高效的内存映射策略，在语音和图像处理任务中均实现了高精度和低功耗。这项工作为IMC技术的商业化应用解决了工具链障碍，未来可以支持如Transformer等更新、更复杂的神经网络结构。也可将此框架应用于健康监测、工业自动化等更多样化的AI场景中。

2025-08-04 14:41:46 992

原创 2025 VLSI论文详解：A 28nm 84.9KOPS 1.82 RISC-V Crypto-SoC with Primitive-based Deep-coupling Unified Post

华中科技大学团队在VLSI2025上提出一款基于RISC-V的后量子密码SoC芯片，采用28nm工艺实现。该芯片通过深度耦合架构、向量化指令集和密码原语重构三大创新技术，在保持可编程性的同时，显著提升后量子密码处理性能。实验结果显示，其吞吐量达84.9KOPS，能效比为1.82，较同类方案提升1.22-5.84倍，支持Kyber、Dilithium等NIST标准算法，并兼容传统加密需求。该设计为后量子时代的密码安全提供了高效芯片解决方案。

2025-08-04 14:26:03 705

原创 ISSCC 14.5 支持浮点转置的SRAM-CIM阵列

本文提出了一种面向边缘AI训练的高性能计算内存架构，采用28nm工艺实现192.3TFLOPS/W能效。创新性包括：1）循环权重映射6T-SRAM阵列，实现阵列内权重转置和MAC电路复用；2）支持多种数据格式的数字CIM架构；3）精准/近似双模位并行MAC电路。该架构通过循环移位存储、动态激活对齐和共享运算单元，解决了传统转置CIM方案的硬件冗余问题，同时采用带符号定点尾数编码策略支持浮点运算。测试显示其FP8格式在能效和精度间取得良好平衡，为边缘设备提供了高效的训练解决方案。

2025-07-16 11:07:56 934

原创第二十一届全国容错计算学术会议（CCF CFTC 2025）将于7月18日至20日在杭州举行

中国计算机学会容错计算专业委员会将于2025年7月18-20日在杭州举办第二十一届全国容错计算学术会议（CCFCFTC2025）。会议将围绕芯片、系统、软件等层面的容错技术展开研讨，预计吸引800余名专家学者，通过技术报告、论文分享等形式探讨前沿进展。知存科技创始人王绍迪将作《大语言模型的存内计算加速》主题报告，同时公司将携“天才博士计划”亮相。会议由CCF主办，北京邮电大学等单位承办，旨在推动我国容错计算领域发展。

2025-07-15 14:37:54 438

原创 JOS论文详解：28nm RRAM模拟存内计算芯片工作

清华大学集成电路学院吴华强教授团队在《Journal of Semiconductors》发表了一项基于RRAM的存内计算芯片研究。该研究针对传统存内计算方案忽视数据写入效率的问题，提出了三大创新：1）混合1T1R/2T2R编程方案，将编程速度提升2.5-4.3倍；2）无运放、读写复用的双开关直流ADC，品质因数提升2.6-3.8倍；3）分段字线结构，实现精细控制。测试表明，该576K单元芯片在28nm工艺下达到2.82TOPS/mm²的面积效率，混合编程模式在速度、功耗和准确性方面均优于传统方案。这一成果

2025-07-11 11:51:54 600

原创这个夏天属于黑客松，邀请全世界最疯狂的 Builders

Hello World，迄今为止中国规模最大的黑客松Adventure X回归，2024年，属于年轻人的第一场Adventure X黑客松吸引了2300人参与。2025年，Adventure X和小红书一起，邀请你【用创造改变世界，哪怕1%】

2025-07-10 17:26:35 325

原创存算一体这些岗位招人啦！知存科技2025火热招聘中

企业就业机会直通车：知存科技提供行业顶尖待遇，广阔发展前景，优质工作环境，存算一体，工艺制程，硬件架构，AI算法，等你来

2025-07-08 17:45:30 826

原创 ISSCC 25 14.6论文详解：《A 28nm 64kb Bit-Rotated Hybrid-CIM Macro with an Embedded Sign-Bit-Processing Ar

东南大学司鑫团队在ISSCC2025提出了一种创新的混合存内计算宏芯片，采用位旋转特征输入方案、嵌入式符号位处理技术和多比特融合双粒度协同量化器，有效解决了传统混合存内计算的精度损失、性能损失和面积开销问题。该芯片在28nm工艺下实现了67.8TOPS/W的高能效，在图像分类、视觉Transformer和自然语言处理等AI任务中精度损失均低于2%。与现有方案相比，该设计在硬件综合性能指标上提升显著，代表了混合存内计算技术的重要突破。

2025-07-03 16:20:12 1057

原创论文解析：Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures

大语言模型（LLMs）的快速规模化暴露了当前硬件架构在内存容量、计算效率、互联带宽的瓶颈。DeepSeek-V3通过硬件感知的模型协同设计，在2048块NVIDIA H800 GPU上实现了低成本大规模训练与推理。随着集群规模的指数级增长，硬件的鲁棒性与可靠性对于大模型将愈加重要。

2025-06-20 17:07:15 701

原创 “洞见AI未来“主题正文：深度解读Mary Meeker 2025年度AI技术报告

该报告围绕人工智能（AI）技术的爆发式增长及其对全球科技、经济、社会的颠覆性影响展开，其指出，AI 不仅是技术革命，更将重塑全球地缘政治与经济格局，与之带来的商业化与伦理挑战也仍需长期观察。商业分析报告：需引用文档数据（如 “AI 训练算力 15 年增长 360%/ 年”），结合至少 3 个案例展开分析。技术验证论文：基于开源大模型（如Llama 3、Stable Diffusion等）的技术验证与实验分析。深入解读报告中的关键技术趋势（如Agentic AI、AI Native应用）。

2025-06-16 15:35:35 459

原创【精彩回顾.上海交通大学专场】---大模型推理需求下的计算生态链变革

2025 年 6 月 6 日，由存算一体开发者社区与上海交通大学联合主办的 “大模型推理需求下的计算生态链变革” 专场活动在上海交通大学闵行校区顺利举办。本次活动汇聚了算能、OpenDataLab、知存科技、天翼云等企业专家，围绕大模型时代的算力架构创新、数据生态构建及产业实践展开深度探讨，推动产学研用协同发展。

2025-06-09 15:12:03 876

原创 GTC2025——英伟达布局推理领域加速

英伟达GTC2025大会于2025年3月18日在美国加州圣何塞举行，NVIDIA CEO黄仁勋在会上展示了公司近年来的成就，并提出了通过纵向扩展（scale up）和横向扩展（scale out）解决推理问题的未来布局。GTC大会自2009年起每年举办，已成为AI、深度学习、高性能计算等领域的重要技术发布和交流平台。黄仁勋强调，AI已进入代理AI阶段，算力需求依然强劲，尤其是推理能力在端侧的重要性。英伟达推出了Dynamo和CPO两项关键技术，提升token产出的效率以及优化成本。

2025-05-12 17:56:44 937

原创 ISSCC 25 14.4 性能达51.6TFLOPs/W的全数据路径存内计算宏单元，逼近稀疏性极限，应用于复合人工智能时损失低于2-30

本文由清华大学尹首一团队的Zhiheng Yue和Xujiang Xiang撰写，发表于2025年IEEE国际固态电路会议（ISSCC），探讨了复合AI模型在端侧部署时面临的挑战，并提出了三项创新解决方案。首先，文章指出复合AI模型虽然降低了参数量，但由于多个模型特征交融，传统基于单一模型的简化方法失效，导致精度损失和功耗增加。针对这些问题，作者提出了后置乘积对齐、全通路存内计算和稀疏捕获三项技术。

2025-05-12 15:07:15 819

原创 ISSCC 25 14.3论文详解：面向卷积神经网络与 Transformer 的 28 纳米、17.83 - 62.84TFLOPS/W 广播对齐浮点存内计算宏单元

东南大学司鑫教授团队在ISSCC 2025上发表了一篇关于存内计算（CIM）的论文，提出了一种新型的广播对齐非二进制补码浮点存内计算宏（B-A-N2CMAC FP-CIM）。该研究针对高精度和高能效边缘AI芯片的需求，解决了传统浮点计算中的精度损失、性能损失和面积开销问题。通过创新的广播输入、嵌入式区域高效自适应对齐方案和格式混合的N2CMAC，该芯片在28nm工艺下实现了64kb的B-A-N2CMAC FP-CIM宏，支持BF16和INT8两种数据类型。

2025-05-12 14:56:17 1236

原创第二届知存科技杯华东专项赛开启！挑战AI创新，赢取高额奖金与荣誉！

第二届知存科技杯华东专项赛正式启动！本次竞赛由知存科技联合浙江大学、复旦大学、上海交通大学，南京大学顶尖高校共同举办，面向计算机、微电子及芯片相关专业的本硕学生（本科生优先），提供实践与创新的舞台。无论你是算法优化达人，还是硬件设计高手，这里都有属于你的赛道！

2025-04-30 15:54:14 298

原创复旦大学发布全球首款二维半导体芯片——无极

图2展示了RV32-WUJI的整体结构，包括其在4英寸蓝宝石晶圆上的布局（图2a）、芯片的物理层结构（图2b）、典型逻辑门单元的SEM图像（图2c）以及晶体管沟道区域的扫描电子显微镜图（图2d）。他们在4英寸二硫化钼（MoS2）晶圆上，利用与主流硅基CMOS工艺兼容的顶栅晶体管结构和四层金属互连技术，成功集成了超过5900个MoS2晶体管，构建了一个能够执行标准RISC-V 32位整数指令集（RV32I）的微处理器原型RV32-WUJI，在器件工艺协同优化、从晶体管到电路、新的电路架构三方面取得重要突破。

2025-04-29 17:34:29 1364

原创存内计算开发者社区第一季主题征文结果公布

2025年，人工智能（AI）技术正迎来新一轮的爆发式增长，尤其是AI Agent（人工智能代理）和具身智能（Embodied Intelligence）等前沿领域，正在重塑全球科技生态。具身智能则通过将AI与物理世界结合，赋予智能体感知、理解和交互的能力，开启了AI与人类协作的新篇章。为探索2025年AI技术的最新趋势，推动学术与产业界的深度交流，CSDN存内计算开发者社区特发起本次文稿征集活动，邀请广大开发者、研究者及技术爱好者，共同解读AI Agent、具身智能等前沿技术的现状、挑战与未来发展方向。

2025-04-16 16:08:42 447

原创华为磁电融合MED vs 铁电/闪存：存储技术新赛道！

这项技术融合了固态硬盘 (SSD)的高速度和磁带存储的大容量的优势，旨在大幅降低数据中心存储的成本和功耗，并为应对 AI 时代的海量数据存储需求提供更优解决方案。华为 MED 存储的推出，正值数据中心面临海量数据存储和绿色节能双重挑战的关键时期。从电存储 (闪存、铁电存储)、磁存储到磁光电融合存储，数据存储技术不断演进，以适应不断增长的数据量和多样化的应用需求。得益于磁电融合的技术特性，华为 MED 存储展现出显著的优势，尤其在。未来，随着技术的不断成熟和应用场景的拓展，我们有理由相信，

2025-04-02 15:14:39 1485

原创 ISSCC 2025 14.2 一款16nm, 216kb, 188.4TOPS/W, 133.5TFLOPS/W的微缩放多模式增益单元存内计算宏单元边缘人工智能设备

在神经网络的实际应用中，ADT（AdderTree,ADT）的输入数据往往不是完全随机的，而是存在一定的统计特性。在软硬件协同优化方面，研究团队提出了SS-VAF技术，通过在CIM内部实现FP2MX和SS处理，并结合方差信息提升输入尾数的稀疏性，有效降低了数据传输开销和计算能耗，克服了传统CIM设计中系统到CIM数据传输的瓶颈难题；此外，A2-DF累加感知数据流技术的提出，实现了动态可重配置的数据写入路径和计算流，增强了写入路径的灵活性，并能根据工作负载动态调整数据流，进一步降低了数据传输能耗。

2025-04-02 15:01:09 827

原创 ISSCC 14.1 STT-MRAM CIM 赋能边缘 AI：高性能噪声鲁棒贝叶斯神经网络宏架构详解

该研究提出的22nm STT-MRAM CIM宏芯片，通过SCWT写入方案、μN-ΔI异构架构和2D-CVS-SMC读取方案等多项创新技术的集成，在能效、速度、精度和噪声鲁棒性方面均取得了显著进展。在未来，高性能、低功耗和高噪声鲁棒性的CIM宏芯片能够支持在资源受限的边缘设备上部署更复杂、更强大的神经网络模型，从而提升边缘设备的智能化水平，拓展边缘AI应用的范围。此外，噪声鲁棒性是评价CIM芯片性能的重要指标，尤其是考虑到边缘设备的工作环境往往充斥着复杂噪声，比服务器型芯片具有更高的要求。

2025-03-18 14:40:58 989

原创 IEDM 2024年会：复旦大学刘明院士团队展示融合非易失性铁电和易失性电荷俘获的动态存算类脑阵列

在短时状态下，图5从左至右分别展示了：a）在1.5V的VG脉冲下的PPD情况，在连续脉冲情况下，通道电流由于CT的积累而减小，导致第二脉冲峰A2低于第一个峰A1，右面板显示ID中峰值电流的逐渐下降，而在不同的长期FS状态下增加了刺激脉冲；自动驾驶中，轨迹预测是一个至关重要的功能，通常使用LSTM类型的网络来实现，已有的静态存内计算技术对长期参数（long-term parameter）进行了加速，但短期参数（short-term parameter）的推理计算仍面临较大的缓存开销。

2025-03-18 11:14:28 972

原创智源Emu3发布，验证多模态模型新范式

具体来说，作者在MSCOCO-30K、GenEval、T2I-CompBench和DPG-Bench等流行的文本转图像地测试中进行了评估，四个评测基准分别针对不同的文本生成图像任务的能力，MSCOCO数据集主要用于图像描述和文本到图像生成任务的通用的评估，GenEval提供了一个多维度、多任务的NLG评估框架，强调全面性和细粒度，T2I-CompBench专门用于评估文本到图像生成模型在组合性方面的能力，DPG-Bench专注于评估文本生成模型在生成多样化释义方面的能力，评测结果如上表所示。

2025-03-17 11:19:21 906

原创 VLSI 2024论文详解：具有紧凑型MAC-SIMD和自适应竖式加法数据流的1T1C DRAM存内计算加速器Dyamond

其次，传统比特串行输入数据流需对每个输入比特执行多次模数转换（ADC）和数字累加，导致能效严重受限（每输入比特生成多比特部分和行，需N×B次ADC操作），同时难以维持复杂DNN模型（如ResNet、BERT）所需的信号量化噪声比（SQNR >30dB），阻碍其在先进AI场景中的部署。此外，SS-ADC可以实现更高的能效。SS-ADC的核心思想是通过信号偏移（Signal Shift），将ADC的输入信号分布零中心化，从而可以使用较低位宽的ADC，在保证精度的前提下，显著降低ADC的功耗。

2025-03-07 16:19:19 1181

原创 MWSCAS 2024 论文详解-PSB方法加速模拟存内计算中的乘加法

而在本文中，如图5所示，作者们没有调整参考电压范围，是直接根据推理部分和（Partial Sum）的MAC分布以及前文提到的VCUCM技术，通过缩放计算放电电流来增强（Boost）信号摆幅，这个技术就叫做部分和增强技术（PSB），他可以用忽略不计的功耗提升为代价（<1% ADC功耗），并使SAR-ADC能以更小的面积更低的功耗和更高的转化率来读取，来提升信号摆幅。如图1所示，传统的6T-SRAM在写入操作时需要两个传输门和两条位线，结构复杂且功耗较高，同时会占用较大的布局面积，不利于模拟存算的电路实现。

2025-03-05 17:16:08 1003

原创 DeepSeek爆火登顶，下一代AI大模型深度解析

近日火爆科技圈，对决Open AI登顶海外App下载量第一的科技新秀Deepseek，引发媒体关注。在海内外一众大模型公司中为何脱颖而出，本博文展开深度解析。DeepSeek-V3是由中国公司深度求索（DeepSeek）开发的一款先进的大规模语言模型。用户可以通过官方网站进行注册和使用，注册过程简单便捷，仅需手机号即可完成。DeepSeek-V3在训练效率、成本控制、评测表现以及高并发支持等方面展现了显著的优势，使其在与主流大模型的对比中脱颖而出。从训练效率来看，DeepSeek-V3拥有6710亿参数，相

2025-01-27 21:41:30 3188 1

原创机器人奇点：从宇树科技看2025具身智能发展

在3C、汽车、新能源等行业，这些机器人凭借高精度的视觉检测和精准的运动控制能力，实时感知并适应复杂变化的工业环境，大幅提升生产效率和产品质量，降低人力成本和生产周期。随着技术的成熟和成本的降低，具身智能机器人有望实现从专业领域向大众消费市场的普及，成为人们生活中不可或缺的一部分，深刻改变人类的生产生活方式，推动社会的智能化发展进程。Google DeepMind的RT-2模型是VLA的典型代表，它能够从网络数据和机器人数据中学习，将知识转化为机器人控制的通用指令，显著提升了机器人的泛化能力和语义推理能力。

2025-01-23 18:18:46 7888 1

原创论文：高速模数转换器 ADC 芯片-基于亚稳态提升性能的研究与探索

并在22nm CMOS工艺下进行了流片研制，该芯片在1GS/s的采样率下实现了47.2dB SNDR的精度和4.15mW的功耗，在相近分辨率的单通道模数转换器中达到了较高的精度和保持了较高的能效（22.23fJ/conv.-step FoMw）。比较器对输入电压进行比较，同时异步逻辑通过 MRSE 监测每个位的比较时间 t_comp：如果 t_comp 小于Ts，表明比较器处于小亚稳态（S 亚稳态），META LOGIC检测到这一情况，并输出相应的标志信号，这将为最终输出提供额外的两位信息；

2025-01-22 12:12:57 1281

原创论文：深度可分离神经网络存内计算处理芯片

相较于传统的卷积神经网络，深度可分离卷积具有如下四个优势：1，更少的参数：可减少输入通道数量，从而有效地减少卷积层所需的参数；2，更快的速度：运行速度比传统卷积快；3，更加易于移植：计算量更小，更易于实现和部署在不同的平台上；4，更加精简：能够精简计算模型，从而在较小的设备上实现高精度的运算。

2025-01-22 11:49:00 1619

原创加速具身智能，英伟达推出的Cosmos世界基础模型

cosmos是一个用于加速物理AI开发的平台，可以预测与生成未来虚拟世界物理感知视频的神经网络，以帮助开发者进一步构建未来机器人与自动驾驶应用。WFM如大语言模型，属于一个基础性模型，WFM 通过学习大规模视频数据集中的物理规律和自然行为，能够生成与现实世界具有一定相似性的3D高清视频场景。同时通过扩散模型和自回归模型，对预训练的 WFM 进行微调，可以使其适应特定的物理 AI 任务。对于当下的具身智能模型训练，提供了新的支持。

2025-01-09 18:51:04 1434

原创基于集成非互易磁光的超高耐久性光存内计算技术

光子计算利用光而非电子来进行数据处理的特性有望解决人工智能和机器学习领域对硬件能在超低功耗下实现超高计算吞吐量的需求，然而当前的光子存内计算架构面临存储阵列更新速度慢、能耗高以及耐久性不足等挑战。本文将从需求背景出发，逐一讲述该项研究的工作原理、实验验证以及未来展望等内容。

2025-01-07 11:21:01 1082

原创 IS-2T2R存储器：AWS精度下降问题的解决方案

通过这一系列的改进，IS-2T2R结构有效地解决了AWS问题，提高了权重感测的准确性和存内计算的精度。》这篇文献，它提出了一种对称式的2T2R忆阻器结构，通过引入隔离晶体管解决了传统2T2R忆阻器非对称结构带来的权重感知问题，结合工艺优化，实现了42.2%的集成度提升和8.8fJ/op的能效，下面是详细介绍。2T2R结构中，用于存储正负权重的两个晶体管，它们的源极一个连接到RRAM单元，另一个通过SL接地，导致在读取过程中，即使两个RRAM单元存储了相同的权重值，由于一个晶体管的栅源电压V。

2024-12-30 11:07:41 1515

原创让AI来设计芯片，指日可待？

Synopsys.ai Copilot是新思科技规划中的生成式AI系列的首款产品，其特色在于学习全新的技能并与团队的需求一起成长，让芯片设计与制造厂商可以更轻松地提升生产力，并达成芯片设计从架构的探索、设计到制造的所有阶段的设计目标。AI驱动的芯片自主设计；不管怎样，AI已经证明了其在芯片设计辅助领域的强大能力，作为芯片领域的从业者，也许在不久的将来，我们就能见证AI for EDA，通过商业化AI软件辅助芯片设计，降低设计难度和成本，实现真正的“AI for All Chip Design”。

2024-12-24 11:07:28 2096

原创存内架构IR-DROP问题详解-电容电导补偿

对于更复杂的电路，如广义逆电路，ConCom 方法同样适用，通过在左右阵列中进行行和列的电导补偿，实现电路输入节点的负载平衡，从而解决线性方程组问题。在 MMVM 电路中，通过确定补偿电导的值，使每个位线（BL）的电阻负载相等，可使电路可作为构建模块用于解决更复杂的问题，如基于局部竞争算法（LCA）的压缩感知（CS）恢复电路，通过将 MMVM 电路与模拟反相器、跨阻放大器（TIA）和软阈值模块相结合，实现从压缩输入信号中重建原始信号的功能。为满足复杂计算需求，。(b) 在125°C退火1小时后的分布。

2024-12-05 15:32:46 1568

新型存内计算架构的应用与挑战

该文档围绕新型存内计算架构展开，首先介绍研究背景，包括人工智能运算需求增长但面临AI与存储墙问题、摩尔定律放缓以及冯诺依曼架构的限制；接着阐述存内计算架构的原理与应用，如基于eNVM阵列实现多种运算及性能提升方案；然后指出新型存内计算架构面临模型权重与器件电导不匹配、计算噪声、边缘端学习能力缺失等挑战，并提出训练后量化、量化噪声感知训练、片上训练等解决方案；最后对存内计算架构的应用进行总结，包括多种神经网络及科学计算系统中的应用，以及提及训练后量化和硬件感知训练等内容。

2024-10-24

中国移动研究院-存算一体白皮书

本白皮书全面阐释了存算一体的核心技术、发展路线、应用场景和产业链生态。希望产学研各界能凝聚共识、加强合作、协同发展，推动存算一体技术成熟和生态繁荣，加快存算一体产业化进程，助力我国在先进计算领域实现高水平自立自强。

2024-05-09

存内计算工具链论文合集

存内计算相关工具链，包括工具链量化，映射，研究背景及现有工具链、存内计算相关工具链发展现状、存内计算工具链未来展望。

2024-05-09

基于忆阻器的存算融合计算架构论文合集

基于SRAM，MRAM，Nor Flash，DRAM等传统或新兴存储器做存算一体的计算架构详解，涵盖最新实验数据以及前沿公司项目论文。

2024-05-09

Session 34 Compute-In-Memory.pdf

2024-05-01

存算上机位软件详情介绍

上机位软件是知存科技开发的一系列套件，包括Witmem Studio，SPI_Moniter，知存助听器控制台，存算芯片数据下载软件，FDSP自动化汇编指令生成器，FDSP调参软件，EQ及混响调参软件，WTM2系列芯片SDK，低功耗蓝牙显示系列芯片 SDK。 Witmem Studio是由知存科技开发的一款全功能集成开发环境，包含客户识别的SDK推送功能，SDK包自动更新下载安装功能，内核自动识别语法高亮编辑器，面向不同功能的个性化工程创建功能，以及常规IDE所具有的项目工程管理，文件编辑、编译、调试等功能。

2024-04-07

WTM2101编译工具链介绍

WITIN_MAPPER是知存科技自研的用于神经网络映射的编译软件栈，可以将量化后的神经网络模型映射到WTM2101 MPU加速器上，是一种包括RISC-V和MPU的完整解决方案，可以完成算子和图级别的转换和优化，将预训练权重编排到存算阵列中，极大地缩短模型移植的开发周期并提高算法开发的效率[10]。工具链配备五种可选的优化策略：参数放大、权重复制、高比特稀疏、多点卷积优化、正负（PN）优化，实际应用中，用户可根据权重大小、输入数据类型、精度要求、速度要求等多方面自行选择，一般来讲，权重复制+正负（PN）优化+多点卷积优化就可以满足大部分要求。

2024-04-07

【基于存内计算架构语音算法开发】的实验环境安装包

AISHELL-WakeUp-1数据集是中英文唤醒词语音数据库，命令词为“你好，米雅” “hi, mia”，语音数据库中唤醒词语音3936003条，1561.12小时，邀请254名发言人参与录制。录制过程在真实家居环境中，设置7个录音位，使用6个圆形16路PDM麦克风阵列录音板做远讲拾音(16kHz，16bit)、1个高保真麦克风做近讲拾音(44.1kHz，16bit)。此数据库可用于声纹识别、语音唤醒识别等研究使用。本demo以该数据集为例，用不同网络结构展示模型训练及移植过程。

2023-12-06

WTM2101 ZT1 开发板用户使用手册

WTMDK2101-ZT1 是针对 WTM2101 AI SOC 设计的评估板。 WTMDK2101-ZT1 主要包含 WTM2101-S1 核心板接口，驻极体麦克风接口，音频模块接口（如 ES8156/ES8311/ES8388/MAX98357 等），USB 串口，耳机接口，电池接口，电源监测及控制接口等。 WTMDK2101-ZT1 评估板，可用于 WTM2101-S1 核心板测试，以及助听器通用方案的开发。

2023-12-22

【基于存内计算架构的语音算法开发】工程软件安装包

步骤一：搭建 docker、mappper 环境： ①Linux 下通过 Docker 直接下载，获取指令： docker pull witin/toolchain:v001.000.034 ②Window 环境，可以通过 docker desktop 来使用 docker: 步骤⼆：搭建 IDE 环境 ①预先下载安装包，下载安装 ②默认安装路径，直接点击安装 ③从主菜单的 File->Open…菜单，或者点击工具栏的按钮，打开选择文件对话框，选择要打开的项⽬文件，即***.wmproject 文件即可，点击【打开】按钮即可打开工程。

2023-12-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人