
AI芯片
文章平均质量分 93
凳子花❀
青州街男子技术学院 && 五道口职业技术学院(深圳分院)[斜眼笑]
致力于免费分享技术,知识,就应该是公开的。
展开
-
探秘 DeepSeek R1:AI 领域的革新力量
同时,与 OpenAI 的 GPT 模型不同,它对用户没有限制,OpenAI 对免费用户每周限制为 50 条消息,而 DeepSeek R1 提供无限制访问,这对于那些寻求开放且经济高效的 AI 模型的用户来说,具有极大的吸引力。当被问到某个历史事件时,它若最初给出错误日期,在被要求解释答案时,会进行内部验证,识别错误并自我纠正,这种自我意识和透明度在 AI 模型中极为罕见,大大增强了用户对它的信任。在业务流程优化方面,它可以分析企业的运营数据,找出潜在的效率提升点,帮助企业降低成本,提高竞争力。原创 2025-02-19 15:45:00 · 1413 阅读 · 0 评论 -
MoE硬件部署
在AI芯片中实现MoE专家,本质是通过。原创 2025-02-18 17:22:59 · 1289 阅读 · 0 评论 -
在Deepseek-R1-ZERO出现前,为何无人尝试放弃微调对齐,通过强化学习生成思考链推理模型?
ORM(结果奖励模型)定义:对模型生成的最终结果进行整体评估,仅分配一个稀疏奖励值(如正确/错误)。特点:训练数据需求低(仅需最终结果标注)适用于答案明确、无需中间过程验证的任务(如选择题)PRM(过程奖励模型)定义:对推理过程中的每个中间步骤进行细粒度评估,提供步骤级别的奖励信号。特点:需要步骤级人工标注(如PRM800K数据集含80万条步骤标签)更适合复杂推理任务(如数学证明、多步逻辑推导)原创 2025-02-18 17:19:02 · 598 阅读 · 0 评论 -
DeepSeek 优化方式
MoE结构的模型具有很强的稀疏性,在执行推理任务的时候,每次只会激活其中一部分的模型参数。在GPU算子的使用上,团队引入Marlin算子作为GPU计算的内核,它能够非常高效地进行量化后的矩阵计算,和torch这些计算量化后的矩阵乘法的库相比,使用Marlin算子完成在GPU上面的计算大概可以达到3.87倍的理想加速效果。值得关注的是,KTransformers不止是一个固定的推理框架,也不只能推理DeepSeek的模型,它可以兼容各式各样的MoE模型和算子,能够集成各种各样的算子,做各种组合的测试。原创 2025-02-18 17:17:19 · 826 阅读 · 0 评论 -
DeepSeek V3原理
混合专家模型(Mixture of Experts, MoE)是一种模块化的神经网络架构,其核心思想是通过多个“专家”子模型分工协作来解决复杂的任务。每个专家通常是一个独立的神经网络,专注于处理特定类型的输入或任务。例如,在自然语言处理领域,一个专家可能擅长处理语法结构,而另一个专家则更擅长语义理解。门控网络(Gating Network)负责根据输入数据的特性动态分配任务给不同的专家,并决定每个专家对最终输出的贡献权重。这种设计使得MoE能够高效地处理多样化的任务,同时避免单一模型在复杂场景下的过载问题。原创 2025-02-18 17:12:16 · 1442 阅读 · 0 评论 -
DeepSeek R1原理
强化学习是智能体(agent)与环境(environment)进行交互的过程,智能体在环境中采取一系列行动(action),环境根据智能体的行动给出相应的奖励(reward)和下一个状态(state),智能体的目标是通过学习找到一个最优策略,使得长期累积奖励最大化。这个过程就像一个人在不断尝试不同的行为,以获得最大的回报,如机器人学习行走、游戏玩家学习玩游戏等场景都可以用强化学习来建模。原创 2025-02-18 17:10:14 · 1019 阅读 · 0 评论 -
DeepSeek 简介
DeepSeek(深度求索),是一家在2023年7月17日成立的公司深度求索所开发的大模型名称。公司坐落于杭州,是幻方量化旗下的子公司,全称是杭州深度求索人工智能基础技术研究有限公司。DeepSeek开发团队是由一群年轻且富有才华的高校毕业生组成,团队创始人梁文锋,是量化投资领域的资深专家,拥有丰富的量化投资经验和AI技术背景。其它主要成员大多数来自清华大学、北京大学和浙江大学等国内顶尖高校。包括第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。原创 2025-02-18 17:08:08 · 817 阅读 · 0 评论 -
弹载AI芯片产品定位和技术路线
TPU的全称是Tensor Processing Unit,即张量处理单元. 它可以用于推理,并且有专门用于边缘计算的版本,如谷歌的Edge TPU. Edge TPU是谷歌为在边缘运行AI而设计的专用ASIC芯片,专为在边缘运行TensorFlow Lite ML模型而设计,可在很小的物理占用和很低功耗的限制下提供高性能,从而能够在边缘部署高精度的AI,适用于预测性维护、异常检测、机器视觉、机器人、语音识别等多种应用场景。原创 2025-01-13 09:24:05 · 1169 阅读 · 0 评论 -
NVIDIA JetPack SDK介绍
NVIDIA JetPack SDK 是为Jetson模块提供动力的最全面解决方案,用于构建端到端加速的人工智能应用,大大缩短了产品上市时间。。:这是一个板级支持包(BSP),包括引导加载程序、Linux内核、Ubuntu桌面环境、NVIDIA驱动程序、工具链等。它还包括安全特性和空中下载技术(OTA)功能。Jetson AI 栈:CUDA 加速的人工智能栈,包括一整套用于加速GPU计算、多媒体、图形和计算机视觉的库。它支持如Metropolis这样的应用程序框架,用于构建、部署和扩展视觉AI应用;原创 2025-01-09 16:30:05 · 1599 阅读 · 0 评论 -
承影Ventus GPGPU【五】LLVM编译器配置
本文是承影Ventus GPGPU系列第五篇,主要是介绍承影Ventus GPGPU的LLVM编译器的安装与配置。OpenGPGPU。承影Ventus GPGPU【一】简介承影Ventus GPGPU【二】指令集承影Ventus GPGPU【三】软件工具链承影Ventus GPGPU【四】硬件结构承影Ventus GPGPU【五】LLVM编译器配置在本节中,我们将介绍如何编写可以在 Spike 中运行的 Ventus GPGPU 扩展程序。由于软件栈尚未成熟,此部分内容可能会在未来进行大量修改。原创 2025-01-03 13:41:16 · 1061 阅读 · 6 评论 -
承影Ventus GPGPU【四】硬件结构
本文是承影Ventus GPGPU系列第四篇,主要是介绍承影Ventus GPGPU的硬件结构。OpenGPGPU。承影Ventus GPGPU【一】简介承影Ventus GPGPU【二】指令集承影Ventus GPGPU【三】软件工具链承影Ventus GPGPU【四】硬件结构承影Ventus GPGPU【五】LLVM编译器配置“乘影”GPGPU设计中,每个流多处理器单元(SM)能够处理多个线程束(warp),每个warp包含32个线程。原创 2025-01-03 13:38:50 · 1309 阅读 · 0 评论 -
承影Ventus GPGPU【三】软件工具链
本文是承影Ventus GPGPU系列第二篇,主要是介绍承影Ventus GPGPU的指令集。OpenGPGPU。承影Ventus GPGPU【一】简介承影Ventus GPGPU【二】指令集承影Ventus GPGPU【三】软件工具链承影Ventus GPGPU【四】硬件结构承影Ventus GPGPU【五】LLVM编译器配置“乘影”GPGPU通过兼容OpenCL的编程模型,实现了高效的并行计算。主机端负责与用户程序交互、资源分配和设备管理,而设备端则执行具体的内核。原创 2025-01-03 13:36:39 · 981 阅读 · 0 评论 -
承影Ventus GPGPU【二】指令集
本文是承影Ventus GPGPU系列第二篇,主要是介绍承影Ventus GPGPU的指令集。OpenGPGPU。承影Ventus GPGPU【一】简介承影Ventus GPGPU【二】指令集承影Ventus GPGPU【三】软件工具链承影Ventus GPGPU【四】硬件结构承影Ventus GPGPU【五】LLVM编译器配置vle32.v:从内存中加载 32 位数据到向量寄存器,逐元素加载。vlse32.v:从内存中加载 32 位数据到向量寄存器,带有步长的逐元素加载。原创 2025-01-03 11:51:39 · 935 阅读 · 0 评论 -
承影Ventus GPGPU【一】简介
本文是承影Ventus GPGPU系列第一篇,主要是介绍承影Ventus GPGPU的一些基础概念和设计理念。OpenGPGPU。承影Ventus GPGPU【一】简介承影Ventus GPGPU【二】指令集承影Ventus GPGPU【三】软件工具链承影Ventus GPGPU【四】硬件结构承影Ventus GPGPU【五】LLVM编译器配置简介“乘影”GPGPU概述乘影”是清华大学集成电路学院开发的一款基于RISC-V向量扩展(RVV)的开源通用GPU(GPGPU)。原创 2025-01-03 11:46:16 · 1122 阅读 · 0 评论 -
AI 芯片在弹载系统中的应用挑战
从用户的角度来看,当前AI芯片的痛点涵盖了从硬件性能到软件工具链,再到生态系统和成本等多个方面。提供更平衡的通用算力与专用算力组合;简化工具链,提升开发效率;解决内存墙问题,优化数据传输;控制功耗和散热,提升能效比;推动生态系统的统一和标准化;实现推理与训练的融合,支持在线学习;加强安全性和隐私保护;提供更具性价比的产品;推广模块化设计,增强系统的灵活性;加速Chiplet技术的标准化和应用。原创 2024-12-26 10:14:54 · 923 阅读 · 0 评论 -
智能化军事【六】国外研究进展
本文是智能化军事系列文章第六章——国外研究进展。原创 2024-12-24 14:03:42 · 765 阅读 · 0 评论 -
智能化军事【五】精确制导武器智能化实现
本文是智能化军事系列文章第五章——精确制导武器智能化实现。原创 2024-12-24 14:01:49 · 1791 阅读 · 0 评论 -
智能化军事【四】AI芯片在智能化军事中的应用模式
本文是智能化军事系列文章第四章——AI芯片在智能化军事中的应用模式。原创 2024-12-24 13:59:39 · 1089 阅读 · 0 评论 -
智能化军事【三】军事AI应用痛点及解决方案
文章目录前言军事AI应用痛点及解决方案**能效比****神经网络结构****D载领域应用****性能分析**简介军事大模型评估体系构建军事大模型评估框架军事大模型评估流程军事需求域智能任务域性能表现域评估指标域军事大模型评估基础支撑衔接适配维基础服务维方法工具维“艾武大模型+”系统设计仿真系统**分布式协同**参考文献汇总参考资料前言本文是智能化军事系列文章第三章——军事AI应用痛点及解决方案。系列文章链接:军事AI应用痛点及解决方案尽管深度学习技术在目标识别领域取得了显著进展,但原创 2024-12-24 13:57:15 · 2629 阅读 · 0 评论 -
智能化军事【二】军事AI应用场景
本文是智能化军事系列文章第二章——军事AI应用场景。导弹武器精确制导技术是指导弹武器感知外部复杂场景信息,并完成对感兴趣目标的探测、识别与跟踪,导引导弹对目标实现精确打击的技术。精确制导技术对于提高导弹武器装备复杂作战环境下对多目标的打击能力起着重要作用。有两方面关键要素影响导弹武器对目标精确打击的适应性:目标场景信息获取能力与感兴趣目标自动识别能力。目标场景。原创 2024-12-24 13:54:54 · 2512 阅读 · 0 评论 -
智能化军事【一】智能赋能OODA环
本文是智能化军事系列文章第一章——智能赋能OODA环。随着科学技术的飞速发展,信息化支持下的体系作战将是未来战争的一种主要样式 ,基于“感知-判断-决策-行动(OODA)”成为未来战争的重要制胜机理。战术层面的指挥控制一般以观察‑判断‑决策‑行动(Observe‑orient‑decide‑act,OODA)环为指导。由于战场环境日趋复杂、对抗多域多维,从战场态势到作战策略的映射关系复杂,给OODA环快速解算带来了新的挑战。原创 2024-12-24 13:51:13 · 2640 阅读 · 0 评论 -
深度强化学习
深度强化学习(Deep Reinforcement Learning,DRL)是一种结合了。原创 2024-12-23 13:54:21 · 941 阅读 · 0 评论 -
强化学习与深度学习以及相关芯片之间的区别
它通过构建具有很多层的神经网络(如多层感知机、卷积神经网络CNN、循环神经网络RNN等),自动从大量的数据中学习特征表示。例如,在图像识别任务中,深度学习模型可以从大量的图像数据中学习到图像中不同物体的特征,像边缘、纹理等,进而判断图像中物体的类别。智能体根据环境状态采取行动,环境会根据智能体的行动反馈奖励信号(reward),智能体的目标是最大化长期累积奖励。比如训练一个机器人在迷宫中寻找宝藏,机器人(智能体)每走一步(行动),根据是否更接近宝藏(环境反馈的奖励)来学习最佳的行走策略。原创 2024-12-23 11:47:10 · 1094 阅读 · 0 评论 -
阻碍AI芯片发展的各种“墙”
以下是AI芯片中各种“墙”的含义及解决方式:一般看来,内存墙和存储墙都是混用的,都是指芯片内部存储单元和计算单元物理上分离,致使数据在二者之间传输的带宽和时延成本极高,AI 算法处理大规模数据时,面临内存访问瓶颈、算力利用率低下等问题.原创 2024-12-19 19:49:04 · 1454 阅读 · 0 评论 -
美国DARPA电子复兴计划总结
DARPA即美国国防高级研究计划局,成立于1958年2月7日,最初叫高级研究计划局(ARPA),1972年3月更名为DARPA,1993年2月又改回ARPA,1996年3月再次恢复为DARPA. 其使命是“为国家安全做出关键的突破性技术投资”,通过与学术界、工业界和政府合作伙伴合作,制定和执行研发项目,拓展技术和科学的前沿领域,往往超越美国军方的直接需求,在众多领域取得了显著成果,如天气卫星、GPS、无人机、隐形技术、语音接口、个人计算机和互联网等.原创 2024-12-19 17:23:47 · 1066 阅读 · 0 评论 -
CNN、RNN、LSTM和Transformer之间的区别和联系
CNN和Transfomer介绍。定义:You Only Look Once的缩写,是一种基于深度学习的目标检测算法,其核心思想是将目标检测任务转换为一个回归问题,通过单次前向传播即可同时预测图像中多个物体的位置和类别.工作原理:将输入图像划分为一个SxS的网格,每个网格负责检测落入其中的物体。每个网格会预测固定数量的边界框,并对这些边界框进行打分,以确定它们是否包含物体以及物体的类别。同时,YOLO算法采用卷积神经网络来提取图像特征,然后通过全连接层将特征映射到目标边界框和类别预测.优点。原创 2024-12-19 16:48:10 · 2503 阅读 · 0 评论 -
CNN和Transfomer介绍
基本概念CNN(卷积神经网络)CNN主要是通过卷积层(Convolutional Layer)、池化层(Pooling Layer)和全连接层(Fully - Connected Layer)构建的神经网络。卷积层通过卷积核在图像(或其他数据)上滑动,提取局部特征。例如,在图像分类任务中,一个卷积核可能会提取图像中的边缘特征。池化层用于减少数据维度,降低计算量,同时保留重要的特征信息,常用的池化方法有最大池化和平均池化。原创 2024-12-19 15:46:00 · 1947 阅读 · 0 评论 -
市场常见AI芯片总结
视海芯图SH1210产品概述SH1210芯片是一款高性能、低功耗的专业3D视觉AI芯片,内置了专用2D-ISP和3D-ISP(支持ToF和双目两种深度视觉),配备双核ARM A7以及双核超低功耗NPU,可提供2D/3D视觉处理和高速AI计算的能力,能够广泛用于智能门锁、智能门禁、金融支付、人身核验、智能机器人等各类2D/3D视觉终端。产品性能双核ARM A7+双核低功耗NPU(算力1.3TOPS);内置了2D/3D-ISP价格竞争力。原创 2024-12-18 14:03:23 · 3142 阅读 · 0 评论 -
AI芯片常见概念
最近参加了一些AI芯片开发者会议,发现现在公司的热门研究方向集中在Chiplet和存算一体上,而基于Chiplet又衍生出EDA工具、接口技术、先进封装等概念。由于对这些概念不是很清晰,所以专门调研了一下,总结成此文,希望可以为大家提供一些帮助。通过与三星先进晶圆代工生态系统多芯片集成(MDI)联盟的合作,三星电子晶圆代工业务(三星晶圆代工)正在建立更强大的2.5D和3D异构集成封装生态系统。三星晶圆代工结合了EDA、IP、DSP、存储器、OSAT、基板和测试, 为尖端封装技术提供一站式封装服务。原创 2024-12-18 13:56:04 · 1609 阅读 · 0 评论