史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学生打造，00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Sohu推理性能超H100二十倍

代码讲故事

于 2024-06-28 15:36:14 发布

阅读量1.1k

点赞数 18

分类专栏：个人笔记文章标签： AI GPU 芯片 Sohu B200 H100 英伟达

本文链接：https://blog.csdn.net/u014374009/article/details/140042336

版权

个人笔记专栏收录该内容

75 篇文章 10 订阅

订阅专栏

史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学生打造，00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Sohu推理性能超H100二十倍。

在这里插入图片描述

生成式 AI 推理性价比是 GPU 的 140 倍。

大模型时代，全球都缺算力，买铲子的英伟达市值被炒上了天。

现在，终于有一家公司带着自己的 AI 芯片来叫板了。

6月26日，科技圈迎来了一个重要新闻。美国芯片创业公司 Etched 推出了自己的第一块 AI 芯片 Sohu，它运行大模型的速度比英伟达 H100 要快 20 倍，比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。

在这里插入描述

一台 Sohu 的服务器运行 Llama 70B 每秒可输出超过 50 万个 token，比 H100 服务器（23,000 个 token / 秒）多 20 倍，比 B200 服务器（约 45,000 个 token / 秒）多 10 倍。

在这里插入描述

Sohu 是世界第一款专用于 Transformer 计算的芯片，历时两年打造。

作为一块 ASIC（专用集成电路），Sohu 把对于 transformer 架构的优化硬化在芯片中，无法运行大多数「传统」的 AI 模型：如为 Instagram 广告提供支持的 DLRM、AlphaFold 2 等蛋白质折叠模型或 Stable Diffusion 2 等较旧的图像生成模型。我们也无法运行 CNN、RNN 或 LSTM。

但另一方面，对于 transformer 来说，Sohu 就是有史以来最快的芯片，与其他产品之间是量级的区别。如今的每款主流 AI 产品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驱动的。

最近一段时间，由于摩尔定律放缓，GPU 性能的提升很大程度上需要依赖于增加芯片面积和功耗。不论是英伟达 B200、AMD MI300X 还是 Intel Gaudi 3，都不约而同的使用「二合一」的方式提升性能，功耗也翻倍了。

在这里插入描述

从 2022 年到 2025 年，AI 芯片的性能并没有真正变得更好，而是变得更大了。

但如果大模型广泛使用 Transformer 架构，追求专业化或许是提高性能的好方向。‍

作为一个新兴领域，AI 模型的架构过去变化很大。但自 GPT-2 以来，最先进的模型几乎都在使用 Transformer，从 OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa，再到特斯拉 FSD 自动驾驶所需的模型。

在这里插入描述

Etched 给我们算了一笔账：芯片项目的成本为 5000 万至 1 亿美元，需要数年时间才能投入生产。另一方面，当模型训练成本超过 10 亿美元、推理成本超过 100 亿美元时，使用专用芯片是不可避免的。在这种产业规模下，1% 的改进就能撬动硬件架构的更新。

速度超 H100 20 倍，FLOPS 利用率超 90%

作为世界上首款 transformer ASIC（应用型专用集成电路）芯片，一台集成了 8 块 Sohu 的服务器可以匹敌 160 块 H100 GPU。也即，Sohu 的运行速度是 H100 的 20 多倍。

具体来讲，通过专门化，Sohu 具备了前所未有的性能。一台集成 8 块 Sohu 芯片的服务器每秒可以处理 50 万的 Llama 7B tokens。

针对 Llama 3 70B 的 FP8 精度基准测试显示：无稀疏性、8 倍模型并行、2048 输入或 128 输出长度。

此外，对于 Llama、Stable Diffusion 3，Sohu 仅支持 transformer 推理。Sohu 支持了当前谷歌、Meta、微软、OpenAI、Anthropic 等各家的模型，未来还会适配模型调整。

由于 Sohu 仅能运行一种算法，因此可以删除绝大多数控制流逻辑，从而允许拥有更多数学块。也因此，Sohu 实现了 90% 以上的 FLOPS 利用率，而使用 TRT-LLM 的 GPU 约为 30%。

Sohu 为何能输出更多 FLOPS？

英伟达 H200 支持 989 TFLOPS 的 FP16/BF16 计算能力，并且没有稀疏性。这是当前最先进的芯片，而 2025 年推出的 GB200 将在计算能力上提升 25%，支持 1250 TFLOPS。

由于 GPU 的绝大部分区域都是可编程的，因此专注于 transformer 会容纳更多的计算。这可以从第一性原理中证明：

构建单个 FP16/BF16/FP8 乘加电路需要 10000 个晶体管，这是所有矩阵数学的基石。H100 SXM 拥有 528 个张量核心，每个核心拥有 4× 8 × 16 FMA 电路。乘法告诉我们：H100 有 27 亿个晶体管用于张量核心。

但是，H100 却有 800 亿个晶体管。这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法。这是英伟达和其他芯片厂商经过深思熟虑的设计决定。如果你想支持所有类型的模型（CNN、LSTM、SSM 等），那么没有比这更好的了。

而通过仅运行 transformer，Etched 可以让 Sohu 芯片输出更多的 FLOPS，且需要降低精度或稀疏性。

内存带宽也不是瓶颈

实际上，对于像 Llama 3 这样的模型，情况并非如此。

我们以英伟达和 AMD 的标准基准为例：2048 个输入 token 和 128 个输出 token。大多数 AI 产品的 prompt 更长，比如最新的 Claude 聊天机器人在系统 prompt 中拥有 1000+tokens。

在 Sohu 上，推理是分 batch 运行的。每个 batch 都需要加载所有模型权重一次，并在 batch 的每个 token 中重复使用。通常来说，LLM 输入是计算密集型的，而 LLM 输出是内存密集型的。当我们将输入和输出 token 与连续 batch 结合时，工作负载变成了高度计算密集型。

以下为 LLM 连续 batching 处理的示例，这里运行具有四个输入 token 和四个输出 token 的序列。每种颜色代表不同的序列。

在这里插入描述

我们可以扩展相同的技巧，从而运行具有 2048 个输入 token 和 128 个输出 token 的 Llama 3 70B。每个 batch 中包含用于一个序列的 2048 个输入 token，以及用于 127 个不同序列的 127 个输出 token。

如果这样做了，则每个 batch 需要大约 (2048 + 127)×70B 参数 × 每个参数 2 字节 = 304 TFLOP，而仅需要加载 70B 参数 × 每个参数 2 字节 = 140 GB 的模型权重和大约 127× 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 缓存权重。这比内存带宽需要的计算量多得多：H200 需要 6.8 PFLOPS 的计算才能最大化其内存带宽。这还是利用率为 100% 的情况，如果利用率仅为 30%，则需要 3 倍以上的内存。

Sohu 拥有了更多的计算能力且利用率非常高，因此可以运行巨大的吞吐量，而不会出现内存带宽瓶颈。

软件如何工作

在 GPU 和 TPU 上，软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片（如 AMD、Intel、AWS 等）在软件上总共花费了数十亿美元，但收效甚微。

而 Sohu 只运行 transformer，因此只需要为 transformer 编写软件。

大多数运行开源或内部模型的公司都使用特定于 transformer 的推理库，比如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。

这些框架非常僵化，虽然你可以进行模型超参数调优，但实际上不支持更改底层模型代码。但这没关系，因为所有 transformer 模型都非常相似（甚至是文本 / 图像 / 视频模型），所以超参数调优就是你真正需要的。

虽然 95% 的 AI 公司是这样，但一些最大的 AI 实验室采用定制方式。他们有工程师团队来手动调整 GPU 核心以实现更高的利用率，并进行逆向工程以将寄存器对每个张量核心的延迟将至最低。

Etched 让我们不需要再进行逆向工程，他们的软件（从驱动程序、内核到服务堆栈）都将是开源的。如果你想实现自定义 transformer 层，则内核向导可以自由地这样做。

创业团队：哈佛辍学生领衔

Etched 的 CEO Gavin Uberti 告诉记者：「如果未来 Transformer 不再是主流，那我们就会灭亡。但如果它继续存在，我们就会成为有史以来最大的公司。」

打造 Sohu 芯片的 Etched 位于加州库比蒂诺，公司成立仅两年，目前团队只有 35 人，创始人是一对哈佛辍学生 Gavin Uberti（前 OctoML 和前 Xnor.ai 员工）和 Chris Zhu，他们与 Robert Wachen 和前赛普拉斯半导体公司首席技术官 Mark Ross 一起，一直致力于打造专用于 AI 大模型的芯片。

在这里插入描述

在 Sohu 芯片发布的同时，Etched 也宣布已完成了 1.2 亿美元的 A 轮融资，由 Primary Venture Partners 和 Positive Sum Ventures 共同领投。Etched 的总融资额已达到 1.2536 亿美元，本轮融资的重要投资者包括 Peter Thiel、GitHub 首席执行官 Thomas Dohmke、Cruise 联合创始人 Kyle Vogt 和 Quora 联合创始人 Charlie Cheever。

不过对于占据超过 80% AI 芯片市场份额的英伟达来说，1.2 亿美元只相当于它半天的收入。

「我们如此兴奋的原因，选择辍学的原因，以及我们召集团队，投身芯片项目的原因在于 —— 这是最重要的工作，」Etched 运营主管 Robert Wachen 说道。「整个技术的未来将取决于算力基础设施能否实现大规模。」

Uberti 声称到目前为止，已有匿名客户预订了「数千万美元」的硬件，预计在今年三季度，Sohu 将推向市场。

未来真的如 Uberti 所说，只有在 Sohu 这样的芯片上，视频生成、音频生成、具身智能等技术才能真正落地吗？

参考内容：

https://www.etched.com/announcing-etched

https://twitter.com/Etched/status/1805625693113663834

https://www.cnbc.com/2024/06/25/etched-raises-120-million-to-build-chip-to-take-on-nvidia-in-ai.html

https://techcrunch.com/2024/06/25/etched-is-building-an-ai-chip-that-only-runs-transformer-models/

00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Sohu推理性能超H100二十倍

史上最快Transformer芯片诞生了！用Sohu跑Llama 70B，推理性能已超B200十倍，超H100二十倍！刚刚，几位00后小哥从哈佛辍学后成立的公司Etached，宣布再融资1.2亿美元。

有史以来最快的Transformer芯片，刚刚诞生了？
去年21岁哈佛辍学华裔小哥的神级创业故事，进化到了新的阶段。
这一次，号称专为LLM推理加速打造的Sohu芯片，已经成超越Groq，成为最强AI芯片。
如今的Sohu，在跑Llama 70B时每秒可生成高达500000个token的输出。
换句话说就是：1张Sohu≈20张H100≈10张B200。

在去年12月，Etced就曾火过一阵，当时两位哈佛辍学小哥的2人公司，估值已经高达3400万刀。当时Sohu号称LLM推理性能达到H100的10倍，单价吞吐量更是高达140倍。
而就在刚刚，Etced又宣布了炸裂的新消息：已筹到1.2亿美元。

就在上周，英伟达的市值达到3.3万亿美元，超过微软成为全球第一。而Etched相信，自己的35人团队能够击败英伟达。
他们的豪放预言，得到了硅谷真金白银的支持。投资名单中，是一众豪华的机构和硅谷大佬，包括Peter Thiel。
Primary Venture Partners和Positive Sum Ventures领投了这轮融资，机构投资者包括 Hummingbird、Fundomo、Fontinalis、Lightscape、Earthshot、Two Sigma Ventures和 Skybox Data Centers。
天使投资者包括Peter Thiel、Stanley Druckenmiller、David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim和Charlie Cheeve。

Etched创始人之一Gavin Uberti表示，「我们正在押注人工智能领域最大的赌注——一种只能运行Transformer模型的芯片，但其运行速度比GPU快几个数量级。也许注意力确实是你所需要的全部…」

Pika研究人员表示，每秒50万token简直太疯狂了。你可以在2秒内写出「圣经」，或者一年内生成15万亿token。

Sohu大约每秒能输出21个人一天说的话，简直太不真实了。

Thiel Fellowship的主任Alex Handy，对几位年轻人表示了高度的赞许：「投资Etched是对 AI 价值的战略性押注。他们的芯片解决了竞争对手不敢面对的可扩展性问题，挑战了同行中普遍存在的停滞状态。」
在他看来，正是因为几位小哥做了底层的工作，硅谷的程序员们才能继续安心编程，不必担心正在开发技术的底层出问题。

两年前开始的豪赌

这个传奇的故事，始于两年前。
2022年，几位创始人就打赌：Transformer将占领世界。

为此，他们花了两年时间打造Sohu，这是世界上第一个用于Transformer的专用芯片（ASIC）。

将Transformer架构烧录到Sohu芯片后，它无法运行大多数的传统AI模型：比如DLRMs、AlphaFold 2，或Stable Diffusion 2；也无法运行CNNs、RNNs或LSTMs。
但对于Transformer来说，Sohu确实是有史以来最快的芯片。但它还可以更快。
对于Llama 70B，Sohu的吞吐量每秒超过了50万个token，因此它可以构建在GPU上根本不可能实现的产品。
而且，它甚至比英伟达的下一代Blackwell（B200）更快、更便宜！
如今最先进的AI模型，无一不是基于Transformer的，比如ChatGPT、Sora、Gmini、Stable Diffusion 3等等。
如果Transformer被SSM、RWKV或任何新架构取代，那Sohu将毫无用处。
但是，创始人小哥表示，如果他们押对了，Sohu将彻底改变世界！
这，就是一场豪赌。
Scale是「超级智能」所需的全部？

五年内，AI模型在大多数标准化测试中，超越了人类。
这是怎么做到的？
因为Meta用于训练Llama 400B（2024年SOTA模型）的计算量，比OpenAI训练GPT-2（2019年SOTA模型）多5万倍。

OpenAI用Scaling Law预测了GPT-4性能，并预计GPT-5+同样适用
奥特曼曾说过，「扩展参数规模确实非常重要。当我们在太阳周围建造了一个戴森球（Dyson Sphere）之后，我们才可以考虑讨论是否应该停止这么做，但在那之前不应该停下来」。
也就是说，通过向LLM提供更多的算力和更好的数据，才使得AI变得更加智能。
不得不承认，参数规模扩展（Scale）将会是几十年来唯一持续有效的方法。
每个大型AI公司（谷歌、OpenAI/微软、Anthropic/亚马逊等）都在未来几年投入超1000亿美元来继续扩大LLM规模。
然而，再扩展1000倍必定是昂贵的，形象地解释，下一代数据中心的成本将超过一个小国的GDP。
按照目前的发展速度，我们的硬件、成本、财力根本无法跟得上。
GPU撞墙了
圣克拉拉，英伟达总部所在地，不愿意让人知道的小秘密是——
GPU性能其实没有变得更好，只是变得更大了。
过去四年里，芯片单位面积的计算能力（每平方毫米的TFLOPS）几乎没有提升。
就比如，英伟达的B200、AMD的MI300、英特尔的Gaudi 3，以及亚马逊的Trainium2都将2个芯片集成到一张卡上，以使其性能翻倍。

如下曲线图中，也可以看出，从2022年-2025年，AI芯片并没有真正变得更好只是变得更大了。
在过去四年中，计算密度（TFLOPS/mm^2）仅提高了约15%。

而现在，随着摩尔定律的放缓，提高芯片性能的唯一途径，便是让其走向「专用」化。
专用芯片，势在必行
在Transformer占领世界之前，许多公司构建了灵活的AI芯片和GPU来处理数百种不同的机器学习架构。
举几个例子：

却从来没有人制造，针对特定算法的AI芯片（ASIC）。
因为，全新的芯片项目需要花费5000万-1亿美元，甚至要用许多年的时间才能投入生产。
当Etched开始着手这一项目时，根本就不存在这样的市场。
突然间，这种情况一下子发生了转变。
ChatGPT出现之前，Transformer的推理市场规模大约是5000万美元。
而现在，已经达到数十亿美元。所有的科技巨头，初创公司都在使用Transformer模型。
大模型架构，都在走向融合趋同。自从GPT-2诞生以来，最先进的模型架构几乎保持一致！
OpenAI GPT系列、谷歌PaLM、Meta Llama，甚至特斯拉的全自动驾驶系统，都采用了Transformer架构。

当模型的训练成本超过10亿美元，推理成本超过100亿美元时，专用芯片的出现是必然的。
在这种巨大参数规模之下，即使只有1%的性能提升，也足以证明5000万-1亿美元的定制芯片项目是值得的。
实际上，ASIC的速度要比GPU快很多个数量级。
Transformer拥有巨大的护城河

Etched.ai的几位创始人表示，他们相信硬件彩票——能在硬件上运行得最快、最便宜的模型，就是获胜的那一个。
而Transformer拥有巨大的护城河，足以在替代方案成熟之前主导各大AI计算市场。
理由如下——

Transformer正在为每一个大型AI产品提供支持，无论是Agent、搜索还是聊天。
为了优化GPU去适应Transformer，AI实验室已经在研发上投入了数亿美元。
无论是当前还是下一代SOTA模型，都是基于Transformer的。
随着未来几年模型训练的规模从10亿美元扩大到100亿美元，再到1000亿美元，测试新架构的风险也急剧上升。
与其重新测试Scalling law和性能，不如把时间花在基于Transformer的功能开发上，比如多token预测。
当前的软件栈，已为Transformer进行了优化。每个流行的库（TensorRT-LLM、vLLM、Huggingface TGI等），都有在GPU上运行Transformer模型的专用内核。
许多建立在Transformer之上的功能，比如推测解码、树搜索等，在替代方案中都很难得到支持。

Sohu可以通过树搜索更好地编码，能够并行比较数百个响应
4. 未来的硬件栈，也将为Transformer进行优化。比如英伟达的GB200，对Transformer Engine就有特殊的支持。
随着像Sohu这样的ASIC进入市场，将会带来一种不可逆的趋势。
也就是说，作为「Transformer Killer」的模型需要在GPU上，运行得比Sohu上的Transformer更快。
而但凡出现这种情况，创始人表示，他们也会为此构建一款全新的ASIC！

Sohu支持多重推测解码，可以实时生成新内容
Sohu来了！

Sohu是世界上第一个Transformer ASIC。
通过专门化，Sohu获得了前所未有的性能。一台8xSohu服务器每秒可以处理超过50万个Llama 70B token，等效于160块H100 GPU。
Sohu仅支持Transformer推理，并支持当今所有的模型（Google、Meta、Microsoft、OpenAI、Anthropic等），以及处理未来模型的调整。
无论是Meta的Llama、谷歌的Gemini、OpenAI的GPT、Anthropic的Claude、还是Stability AI的Stable Diffusion 3等等，都可以。
由于Sohu只能运行一种算法，因此绝大多数的控制流逻辑可以被移除，从而允许其拥有更多的数学模块。
结果就是，Sohu的FLOPS利用率高达90%以上；相比之下，使用TRT-LLM的GPU仅为为30%左右。
如何实现比GPU更多的FLOPS？

目前最先进的算力——英伟达H200，在没有稀疏处理的情况下具有989 TFLOPS的FP16/BF16算力。（超过了Google的新Trillium芯片之一）
而2025年推出的GB200，将会在算力上增加25%（每个芯片1250 TFLOPS）。
由于GPU的大部分面积都用于可编程性，因此专注于Transformer可以容纳更多的算力。
从基本原理上来看，这一点可以很容易被证明：
制造一个FP16/BF16/FP8乘法加法电路（所有矩阵数学的基础构件）需要10,000个晶体管。H100 SXM有528个张量核心，每个核心有4×8×16个FMA电路。通过计算可以得到，H100有27亿个晶体管专用于张量核心。
实际上，H100拥有800亿个晶体管！这意味着在H100 GPU上的晶体管中，仅有3.3%用于矩阵乘法！
但问题是，如果想要为各种模型（CNN、LSTM、SSM等）都提供支持，就不得不采取这样的设计。
这时，如果选择只运行Transformer，就可以在芯片上容纳更多的FLOPS，且无需依赖更低的精度或稀疏处理。
推理的瓶颈是内存带宽，而非计算？

事实上，对于像Llama-3这样的现代模型，并非如此！
使用英伟达和AMD的标准基准测试——2048个输入token和128个输出token，大多数AI产品的输入都要比输出长得多（即使是新的Claude聊天，系统提示也有1000多个token）。
在GPU和Sohu上，推理是以批次运行的。每个批次都会加载一次所有的模型权重，并在批次中的每个token上重复使用它们。
通常，LLM的输入是计算密集的，而LLM的输出是内存密集的。所以，当我们将输入和输出token与连续批处理结合时，工作负载就会变得非常「计算密集」。
下图的示例中，就展示了连续批处理LLM的过程。
这个过程中，会运行带有四个输入token和四个输出token的序列；每种颜色代表一个不同的序列。

同样的技巧，就可以扩展到2048个输入token和128个输出token的Llama-3-70B上。
要让每个batch，都包含一个序列的2048个输入token，和127个不同序列的127个输出token。
如果这样做的话，每个batch将需要大约（2048+127）×70B参数×每个参数2字节=304 TFLOPs，同时只需要加载70B参数×每个参数2字节=140 GB的模型权重，以及大约127× 64×8×128×（2048+127）×2×2=72GB的KV缓存权重。
这需要的计算，就远超过内存带宽的需求，因为一个H200需要6.8PFLOPS的计算能力，才能最大化其内存带宽。
而且，这是在100%利用率的情况下——如果利用率是30%，需要的计算能力还要多出3倍。
由于Sohu有极高的计算能力和高利用率，我们就可以在不受内存带宽限制的情况下，运行巨大的吞吐量。
注：在现实世界中，batch通常更大，输入长度各不相同，并且请求会以泊松分布到达。在这种情况下，Sohu的效果会更好。在这里之所以使用2048/128基准作为例子，是因为英伟达和AMD都在使用。
只需编写Transformer软件即可

无论在GPU和还是TPU上，软件都是一场噩梦。
处理任意的CUDA和PyTorch代码，需要的编译器极其复杂。
为此，AMD、英特尔、AWS这些第三方AI芯片，都在软件上投入了数十亿，但效果依然不佳。
这里，Sohu的好处就体现出来了——因为它只运行Transformer模型，所以我们只需要为Transformer模型编写软件！
大多数运行开源或内部模型的公司，都会使用特定的Transformer推理库，如TensorRT-LLM、vLLM或HuggingFace的TGI。
这些框架往往很死板，虽然我们可以调节模型的超参数，但并不支持更改底层的模型代码。
但是，没有关系！所有的Transformer模型都非常相似（即使是文本、图像、视频模型），调节超参数就足够了。

这样，就足以支持95%的AI公司了，不过，最大的AI实验室，仍然会进行定制化开发。
工程师团队会手动调优GPU内核，以挤出更多的利用率，并进行逆向工程，比如哪些寄存器对每个张量核心的延迟最低。
而创始人声称，有了Etched，我们就不再需要逆向工程了！
从驱动程序到内核再到服务框架，Etched的所有软件都会是开源的。
如果我们想实现一个自定义的Transformer层，内核专家完全可以自由地去做。
Etched已经破纪录，将成历史第一

现在看起来，Etced的决定很疯狂。
但更疯狂的是，他们是在2022年做出这项决定的——那时ChatGPT甚至还不存在！
当时，图像和视频生成模型还是U-Net模型，自动驾驶汽车是由卷积神经网络（CNNs）驱动的，Transformer架构还远未普及。
而现在，形势显然对他们非常有利。如今从语言到视觉，每个领域的顶尖模型都是Transformer。
这种趋同验证了Etced的前瞻性，更使Sohu成为十年来最重要的硬件项目。

种种迹象表明，公司正走在史上最快芯片发布的进程中——

顶尖的AI研究人员和硬件工程师纷纷离职原团队，加入Etced；
Etced会直接和台积电合作开发4nm工艺，并且获得了足够的HBM和服务器，第一年的产量可以快速提升；
Etced的早期客户，已经预订了数千万美元的硬件
「如果我们是对的，Sohu将改变世界」

如果AI模型在一夜之间，速度飙升20倍，且成本降低20倍，会发生什么？
目前，Gemini需要60多秒才能回答一个与视频相关的问题。
编码智能体的成本，比软件工程师更高，而且需要数小时才能完成任务。
视频模型每秒只能生成一帧，甚至ChatGPT注册用户达到1000万时（仅占全球用户的0.15%），就耗尽了OpenAI的GPU容量。
即便是持续以每两年2.5倍的速度增加GPU的容量，也得需要10年时间，才能实现「实时」视频生成。
而现在有了Sohu，这一切将瞬时完成。
网友表示，「AI的未来是定制硬件，实时视频模型即将现世」！

如果当实时视频、通话、AI智能体和搜索功能终于能够顺畅运行时，会发生什么呢？
很快，你就能知道了。
三位哈佛辍学生，挑战AI芯片霸主英伟达

成立于2022年，这家35人团队的初创公司Etched，坚信一定能够击败英伟达。
到底是什么样的背景，能让三位哈佛辍学生，敢于挑战芯片行业目前最炙手可热的赛道呢？

Robert Wachen、Gavin Uberti、Chris Zhu
创始人兼CEO Gavin Uberti自2020入学哈佛攻读数学专业，随后在2022年攻读硕士学位，专业是计算机。
不过，这两段上学经历，都以辍学告终。

在创办Etched之前，Gavin Uberti曾在另外两家公司分别有过一段全职和简直经历，担任了算法和后端工程师，以及软件工程师。

在进入大学之前，他参与了美国最著名的青少年科技创新大赛FIRST Tech Challenge，团队获得了Top 10奖项。团队开发的自动驾驶软件排在600个参赛团队第二名。
他还曾在2019年，拿过美式数学竞赛的冠军。

另一位创始人Chris Zhu，也是在哈佛就读时就在校外疯狂实习，甚至还没有从哈佛毕业，就已经成为兼职教员。

他个人的工作经历更为丰富些，不仅在高校MIT担任研究员、哈佛兼职教学研究员，还曾在亚马逊等公司做过实习。

最后一位联创兼COO Robert Wachen是一个多领域的创业者，曾创办了4家公司。

接下来，就看看他们会如何去缔造一个新的硅谷神话。
参考资料：
https://www.etched.com/announcing-etched

代码讲故事

关注

18
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学生打造，00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Sohu推理性能超H100二十倍

史上最快AI芯片「Sohu」，速度10倍于B200，哈佛辍学生打造，00后华裔小哥哈佛辍学组团挑战英伟达，史上最快AI芯片Sohu推理性能超H100二十倍。
复制链接

扫一扫