【文末赠书】清华汪玉教授团队:首部高效模型压缩与设计专著重磅上市

🌟今日福利

c94154b5dd41feca26aaf6a6c8327cfa.jpeg

汪玉 宁雪妃 著

电子工业出版社-博文视点 2024-07-01

9787121480591 定价: 119.00 元

新书推荐

关于本书

本书系统地介绍了高效模型压缩和模型设计的方法,在编写上兼顾理论和实践。本书主体部分详细介绍了模型压缩的方法论,包括高效模块设计、模型剪枝、模型量化、模型二值化、神经网络架构搜索、知识蒸馏几大部分。另外,简要介绍了定制化硬件加速器的设计及大语言模型的加速和压缩。

关于作者

汪玉,清华大学电子工程系长聘教授、系主任,IEEE Fellow,国家自然科学基金杰出青年基金获得者,清华大学信息科学技术学院副院长,清华大学天津电子信息研究院院长。长期从事智能芯片、高能效电路与系统的研究,曾获得4次国际学术会议最佳论文奖及12次最佳论文提名。曾获CCF科学技术奖技术发明一等奖、国际设计自动化会议40岁以下创新者奖、CCF青竹奖等荣誉。2016年,知识成果转化入股深鉴科技,打造了世界一流的深度学习计算平台;2018年,深鉴科技被业内龙头企业赛灵思(现AMD)收购。2023年,推动成立无问芯穹,形成面向大模型的软硬件联合优化平台,在国内外10余种芯片上实现了业界领先的大模型推理性能。 

宁雪妃,清华大学电子工程系助理研究员。主要研究方向为高效深度学习。支撑深鉴科技、无问芯穹的早期模型压缩和部署工具链工作;参与10余项高效深度学习相关项目;在机器学习、计算机视觉、设计自动化领域发表学术论文40余篇,其中包含在NeurIPS、ICLR、ICML、CVPR、ICCV、ECCV、AAAI、TPAMI上发表的学术论文共20篇;带领团队在NeurIPS18和CVPR20会议上获得国际比赛奖项。

 限时折扣,点击购书  

在大语言模型问世之前,尤其是在ChatGPT出现之前,人们几乎没有认真讨论过“人工智能是否具备自我意识”这个话题。

2024年,由AI驱动的GPT-4o等应用产品爆红。

这些热门产品的广阔应用前景令人振奋,吸引了大量资源投入AI的算法研究、数据清洗、算力等方面的基础建设中。

这些爆款应用是由大数据训练的大模型支撑的。

举例来说,近年来,大语言模型的训练数据和模型的体量迅速增长,从2017年发布的有1.65 亿参数量的Transformer,到2020年发布的有1750亿参数量的GPT-3,再到2022年发布的ChatGPT应用背后的模型也至少有数百亿参数量。

这样的训练数据和模型体量的增长带来了模型能力的提升,让大模型“涌现”出指令跟随、上下文学习等能力,展示出“通用”的生成能力。

有目共睹的是,生成式任务的智能算法模型扩大,对算力的需求急剧增加。

在这个背景下,高效深度学习领域显得尤为关键,得到了广泛关注。

56f70f7d1da6932c225184c70ca0f319.jpeg

如何将“大”模型(参数量大、计算量大)部署到“小”设备上(资源受限,计算和存储能 力低),同时尽量保持算法性能是各应用领域都非常关心的话题。

584c6081b172147541640d0ac665226e.jpeg

实际应用场景关心的硬件性能指标主要包括延时(Latency)、吞吐率(Throughput)、功率(Power)、能耗(Energy)和存储(Storage)。

对这些指标的要求反映出用户体验、场景限制、成本控制多方面的需求。例如:

  • 延时和吞吐率影响了可用性和实时性;

  • 热设计功耗(ThermalDesign Power,TDP,即最大负荷的能量释放)决定硬件冷却系统所需具备的散热能力水平;

  • 能耗和存储均直接影响系统成本,等等。 

为优化这些指标,研究者和工程师探索了多条路径,纵跨不同设计层次,包括算法设计、软件设计、硬件设计。

在硬件层次,根据算法特性定制化地设计硬件架构,其中可能涉及采用新型器件,代表性工作包括基于FPGA和ASIC的专用硬件架构设计、基于存算器件的专用硬件架构设计。

具体来说,这些工作根据神经网络的算法特性(例如,算子类型、数据的复用模式等)或新器件特性(例如,模拟域计算或存储的能力、器件的非理想特性等)设计专门的计算单元、数据流、指令等,从而用更低的能耗完成同样的计算,即达到更高能效(Energy Efficiency)。

在软件层次,开发者需要针对神经网络模型和硬件平台的特性实现计算算子或系统软件,并开发编译优化工具等,例如,编译优化工具可将神经网络计算流图进行优化、切分、映射,从而将其部署到硬件平台,典型工作包括机器学习编译框架TVM等。

在算法层次,轻量化算法设计针对软硬件系统特性调整算法,通过调整神经网络的模型结构、数据表示等降低其计算开销(Computation Cost)、访存开销(Memory Access Cost)和存储开销(Memory Overhead)。计算开销、访存开销和存储开销的降低最终会体现在延时、吞吐率、功率、能耗、存储容量等指标上。

《高效深度学习:模型压缩与设计(全彩)》一书主体部分围绕“轻量化算法设计”这一思路展开,即通过从头设计或通过压缩已有模型得到更高效的轻量化模型。

限时优惠,感兴趣的读者可以点击购买 

 
 
福利时间
活动时间:截至7月18日早上10点。
活动方式:添加下方微信好友,备注『LLM』,拉群抽奖,在参与的小伙伴中选取3名幸运鹅!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值