大模型推理算力应该什么样？（续：推理算力芯片的各种技术路线）

最新推荐文章于 2025-03-21 10:19:51 发布

小天才学习机打游戏

最新推荐文章于 2025-03-21 10:19:51 发布

阅读量998

点赞数 4

文章标签：人工智能语言模型自然语言处理 copilot chatgpt

本文链接：https://blog.csdn.net/m0_59164520/article/details/140189152

版权

一、推理算力的解决思路

根据基本思路的不同，推理算力可以做以下分类：

专精熟练工路线：
牺牲通用性换取高性能，如各类专用芯片、加速器型芯片
缺点：贵，无法支持新算法
人多力量大路线：
堆计算核心，高并发计算
缺点：核心间通信可能成为瓶颈，编程复杂性增加
混合路线：
大小核设计，存算一体芯片等
缺点：设计和编程复杂，需要高效的任务调度和管理策略，可能有热管理问题

二、降低模型精度也是个办法

量化技术 (Quantization)
近似计算 (Approximate Computing)

两种用于提高AI模型推理速度的方法，它们通过减少计算复杂度来加快推理，同时在一定程度上牺牲模型的精度，比如图像处理、视频处理场景下就挺合适

特性	量化技术	近似计算
定义	减少模型中数据的位宽	容许一定程度的计算误差以提高性能
目标	减小模型大小，加快推理速度	提升性能，可能降低能耗
实现方式	权重和激活值的低位表示	算法、硬件或系统级别的近似处理
精度影响	可能降低模型精度	可能影响结果的准确性和可靠性
硬件支持	需要支持低位宽运算的硬件	依赖于特定硬件的设计和实现
适用场景	深度学习模型部署，资源受限设备	对结果精度要求不严格的应用场景
代表性技术	权重量化、激活量化、混合量化	概率计算、随机计算、容错计算

三、推理芯片的技术路径及代表技术

芯片技术日新月异，每种类别的推理芯片都有其特定的优势和应用场景，选择合适的技术路径取决于目标应用的性能要求、能效目标、成本预算和开发时间等因素

类别	描述	代表技术或架构
通用型推理芯片	适用于多种计算任务，不针对特定算法优化	CPU, GPU
专用型推理芯片（ASIC）	针对特定算法或应用高度优化，提供最佳性能和能效	Google TPU, Apple Neural Engine
可编程推理芯片（FPGA）	提供硬件级别的可编程性，允许快速适应不同的算法需求	Xilinx, Intel FPGA
加速器型推理芯片	专门为深度学习等计算密集型任务设计的加速器	NVIDIA Tensor Core, Google Edge TPU
混合型推理芯片	结合了不同类型的处理器，以优化多种计算任务	AMD APU, Qualcomm Snapdragon
基于新兴技术的推理芯片	利用最新的技术，可能提供更高的能效比或特定优势	存算一体芯片, Chiplet, 神经形态芯片

精简指令集路线的 ARM、RISC-V、龙芯等，在专用芯片以及多核处理器方面，有天然的成本优势
云厂商不会牺牲通用性，会持续购买英伟达、AMD、英特尔的芯片

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述