袁进辉——Tenstorrent由于“硅仙人”Jim Keller的加入和其别具一格的架构设计而备受关注。2021年6月,Tenstorrent 的主创Drago Ignjatovic 和Davor Capalija在Linley Group做了题为《Tenstorrent: Scale-Out-First Microarchitecture for Efficient AI Training》的演讲(https://www.youtube.com/watch?v=Id3enIOAY2Q&t=8s),分享了Tenstorrent的技术理念、产品和愿景,分析师Dylan Patel对这场报告做了剖析,我认为这是一份很有价值的内容,故翻译到中文社区希望更多同仁看到。
本文作者在文末声称,Tenstorrent解决了英伟达还没有解决的横向扩展(scale out)问题。我并不同意这个观点。事实上,今天几乎所有的深度学习软件都是围绕英伟达GPGPU生态而开发,在这个生态里,像OneFlow这样的分布式深度学习框架扮演了Tenstorrent厂内自研的用来解决place和route的编译器,分布式深度学习框架加上英伟达的硬件体系(GPGPU, RDMA网络)已经完成了Tenstorrent所描绘的图景,只是软件框架是由外部厂商完成。
Tenstorrent和GPU在软硬件生态上殊途同归。不过,Tenstorrent针对AI的需求放弃了一些通用性,专用性更强,最终实际效果只能拭目以待。
我一直在思考深度学习领域软硬件特定架构的终态。4年前在一篇文章中写过一些设想,可以说Tenstorrent的设计非常符合那时提出的设想。解决问题的思路和底层抽象也非常吻合,某种程度上,Tenstorrent可以理解为用硬件实现了OneFlow里的Actor系统。
作者 | Dylan Patel
编译 | OneFlow社区
(本文已获编译授权,原文:
https://semianalysis.com/tenstorrent-wormhole-analysis-a-scale-out-architecture-for-machine-learning-that-could-put-nvidia-on-their-back-foot/)
作为最重要的人工智能初创公司之一,Tenstorrent受到了媒体的许多关注。许多关注的背后,除了因为大有前景的硬件和软件设计,还有半导体领域传奇人物Jim Keller的加入。从Tenstorrent公司成立之初,Jim就是投资人,那时他还在特斯拉工作。从特斯拉离职后,Jim加入英特尔,最终在2021年初加入Tenstorrent担任首席技术官,并进入公司董事会。
Tenstorrent采用的是一种独特的将硬件和软件紧密结合的方式。硬件专门为任务设计,但软件也不是非常复杂,整个软件栈只有大约50,000行代码。与大多数其它需要定制开发流程的AI专用集成电路(ASIC)不同,Tenstorrent的适应性和灵活性非常强,同时支持所有主流工具链、框架和运行时。因此,英伟达的最大优势———极易开发,正在受到挑战。
为了了解他们的架构和虫洞处理器(Wormhole processor),我们先来了解一下该公司之前的产品。Jawbridge是一款小型测试芯片,作为架构的概念验证而开发。其中有一系列Tenstorrent设计的Tensix处理核,通过厂内自研片上网络(NOC)连接。这与许可的I/O块(如LPDDR内存控制器和PCIe root)相结合。片上CPU内核可以管理工作负载并运行Linux。
Jawbridge芯片非常小,功耗要求非常低。在当时有限预算的情况下&#