史上最快AI芯片「Sohu」,速度10倍于B200,哈佛辍学生打造,00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍。
生成式 AI 推理性价比是 GPU 的 140 倍。
大模型时代,全球都缺算力,买铲子的英伟达市值被炒上了天。
现在,终于有一家公司带着自己的 AI 芯片来叫板了。
6月26日,科技圈迎来了一个重要新闻。美国芯片创业公司 Etched 推出了自己的第一块 AI 芯片 Sohu,它运行大模型的速度比英伟达 H100 要快 20 倍,比今年 3 月才推出的顶配芯片 B200 也要快上超过 10 倍。
一台 Sohu 的服务器运行 Llama 70B 每秒可输出超过 50 万个 token,比 H100 服务器(23,000 个 token / 秒)多 20 倍,比 B200 服务器(约 45,000 个 token / 秒)多 10 倍。
Sohu 是世界第一款专用于 Transformer 计算的芯片,历时两年打造。
作为一块 ASIC(专用集成电路),Sohu 把对于 transformer 架构的优化硬化在芯片中,无法运行大多数「传统」的 AI 模型:如为 Instagram 广告提供支持的 DLRM、AlphaFold 2 等蛋白质折叠模型或 Stable Diffusion 2 等较旧的图像生成模型。我们也无法运行 CNN、RNN 或 LSTM。
但另一方面,对于 transformer 来说,Sohu 就是有史以来最快的芯片,与其他产品之间是量级的区别。如今的每款主流 AI 产品如 ChatGPT、Claude、Gemini 和 Sora 都是由 transformer 驱动的。
最近一段时间,由于摩尔定律放缓,GPU 性能的提升很大程度上需要依赖于增加芯片面积和功耗。不论是英伟达 B200、AMD MI300X 还是 Intel Gaudi 3,都不约而同的使用「二合一」的方式提升性能,功耗也翻倍了。
从 2022 年到 2025 年,AI 芯片的性能并没有真正变得更好,而是变得更大了。
但如果大模型广泛使用 Transformer 架构,追求专业化或许是提高性能的好方向。
作为一个新兴领域,AI 模型的架构过去变化很大。但自 GPT-2 以来,最先进的模型几乎都在使用 Transformer,从 OpenAI 的 GPT 系列、谷歌的 PaLM、Facebook 的 LLaMa,再到特斯拉 FSD 自动驾驶所需的模型。
Etched 给我们算了一笔账:芯片项目的成本为 5000 万至 1 亿美元,需要数年时间才能投入生产。另一方面,当模型训练成本超过 10 亿美元、推理成本超过 100 亿美元时,使用专用芯片是不可避免的。在这种产业规模下,1% 的改进就能撬动硬件架构的更新。
速度超 H100 20 倍,FLOPS 利用率超 90%
作为世界上首款 transformer ASIC(应用型专用集成电路)芯片,一台集成了 8 块 Sohu 的服务器可以匹敌 160 块 H100 GPU。也即,Sohu 的运行速度是 H100 的 20 多倍。
具体来讲,通过专门化,Sohu 具备了前所未有的性能。一台集成 8 块 Sohu 芯片的服务器每秒可以处理 50 万的 Llama 7B tokens。
针对 Llama 3 70B 的 FP8 精度基准测试显示:无稀疏性、8 倍模型并行、2048 输入或 128 输出长度。
此外,对于 Llama、Stable Diffusion 3,Sohu 仅支持 transformer 推理。Sohu 支持了当前谷歌、Meta、微软、OpenAI、Anthropic 等各家的模型,未来还会适配模型调整。
由于 Sohu 仅能运行一种算法,因此可以删除绝大多数控制流逻辑,从而允许拥有更多数学块。也因此,Sohu 实现了 90% 以上的 FLOPS 利用率,而使用 TRT-LLM 的 GPU 约为 30%。
Sohu 为何能输出更多 FLOPS?
英伟达 H200 支持 989 TFLOPS 的 FP16/BF16 计算能力,并且没有稀疏性。这是当前最先进的芯片,而 2025 年推出的 GB200 将在计算能力上提升 25%,支持 1250 TFLOPS。
由于 GPU 的绝大部分区域都是可编程的,因此专注于 transformer 会容纳更多的计算。这可以从第一性原理中证明:
构建单个 FP16/BF16/FP8 乘加电路需要 10000 个晶体管,这是所有矩阵数学的基石。H100 SXM 拥有 528 个张量核心,每个核心拥有 4× 8 × 16 FMA 电路。乘法告诉我们:H100 有 27 亿个晶体管用于张量核心。
但是,H100 却有 800 亿个晶体管。这意味着 H100 GPU 上只有 3.3% 的晶体管用于矩阵乘法。这是英伟达和其他芯片厂商经过深思熟虑的设计决定。如果你想支持所有类型的模型(CNN、LSTM、SSM 等),那么没有比这更好的了。
而通过仅运行 transformer,Etched 可以让 Sohu 芯片输出更多的 FLOPS,且需要降低精度或稀疏性。
内存带宽也不是瓶颈
实际上,对于像 Llama 3 这样的模型,情况并非如此。
我们以英伟达和 AMD 的标准基准为例:2048 个输入 token 和 128 个输出 token。大多数 AI 产品的 prompt 更长,比如最新的 Claude 聊天机器人在系统 prompt 中拥有 1000+tokens。
在 Sohu 上,推理是分 batch 运行的。每个 batch 都需要加载所有模型权重一次,并在 batch 的每个 token 中重复使用。通常来说,LLM 输入是计算密集型的,而 LLM 输出是内存密集型的。当我们将输入和输出 token 与连续 batch 结合时,工作负载变成了高度计算密集型。
以下为 LLM 连续 batching 处理的示例,这里运行具有四个输入 token 和四个输出 token 的序列。每种颜色代表不同的序列。
我们可以扩展相同的技巧,从而运行具有 2048 个输入 token 和 128 个输出 token 的 Llama 3 70B。每个 batch 中包含用于一个序列的 2048 个输入 token,以及用于 127 个不同序列的 127 个输出 token。
如果这样做了,则每个 batch 需要大约 (2048 + 127)×70B 参数 × 每个参数 2 字节 = 304 TFLOP,而仅需要加载 70B 参数 × 每个参数 2 字节 = 140 GB 的模型权重和大约 127× 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GB 的 KV 缓存权重。这比内存带宽需要的计算量多得多:H200 需要 6.8 PFLOPS 的计算才能最大化其内存带宽。这还是利用率为 100% 的情况,如果利用率仅为 30%,则需要 3 倍以上的内存。
Sohu 拥有了更多的计算能力且利用率非常高, 因此可以运行巨大的吞吐量,而不会出现内存带宽瓶颈。
软件如何工作
在 GPU 和 TPU 上,软件是一场噩梦。处理任意 CUDA 和 PyTorch 代码需要极其复杂的编译器。第三方 AI 芯片(如 AMD、Intel、AWS 等)在软件上总共花费了数十亿美元,但收效甚微。
而 Sohu 只运行 transformer,因此只需要为 transformer 编写软件。
大多数运行开源或内部模型的公司都使用特定于 transformer 的推理库,比如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。
这些框架非常僵化,虽然你可以进行模型超参数调优,但实际上不支持更改底层模型代码。但这没关系,因为所有 transformer 模型都非常相似(甚至是文本 / 图像 / 视频模型),所以超参数调优就是你真正需要的。
虽然 95% 的 AI 公司是这样,但一些最大的 AI 实验室采用定制方式。他们有工程师团队来手动调整 GPU 核心以实现更高的利用率,并进行逆向工程以将寄存器对每个张量核心的延迟将至最低。
Etched 让我们不需要再进行逆向工程,他们的软件(从驱动程序、内核到服务堆栈)都将是开源的。如果你想实现自定义 transformer 层,则内核向导可以自由地这样做。
创业团队:哈佛辍学生领衔
Etched 的 CEO Gavin Uberti 告诉记者:「如果未来 Transformer 不再是主流,那我们就会灭亡。但如果它继续存在,我们就会成为有史以来最大的公司。」
打造 Sohu 芯片的 Etched 位于加州库比蒂诺,公司成立仅两年,目前团队只有 35 人,创始人是一对哈佛辍学生 Gavin Uberti(前 OctoML 和前 Xnor.ai 员工)和 Chris Zhu,他们与 Robert Wachen 和前赛普拉斯半导体公司首席技术官 Mark Ross 一起,一直致力于打造专用于 AI 大模型的芯片。
在 Sohu 芯片发布的同时,Etched 也宣布已完成了 1.2 亿美元的 A 轮融资,由 Primary Venture Partners 和 Positive Sum Ventures 共同领投。Etched 的总融资额已达到 1.2536 亿美元,本轮融资的重要投资者包括 Peter Thiel、GitHub 首席执行官 Thomas Dohmke、Cruise 联合创始人 Kyle Vogt 和 Quora 联合创始人 Charlie Cheever。
不过对于占据超过 80% AI 芯片市场份额的英伟达来说,1.2 亿美元只相当于它半天的收入。
「我们如此兴奋的原因,选择辍学的原因,以及我们召集团队,投身芯片项目的原因在于 —— 这是最重要的工作,」Etched 运营主管 Robert Wachen 说道。「整个技术的未来将取决于算力基础设施能否实现大规模。」
Uberti 声称到目前为止,已有匿名客户预订了「数千万美元」的硬件,预计在今年三季度,Sohu 将推向市场。
未来真的如 Uberti 所说,只有在 Sohu 这样的芯片上,视频生成、音频生成、具身智能等技术才能真正落地吗?
参考内容:
https://www.etched.com/announcing-etched
https://twitter.com/Etched/status/1805625693113663834
https://www.cnbc.com/2024/06/25/etched-raises-120-million-to-build-chip-to-take-on-nvidia-in-ai.html
https://techcrunch.com/2024/06/25/etched-is-building-an-ai-chip-that-only-runs-transformer-models/
00后华裔小哥哈佛辍学组团挑战英伟达,史上最快AI芯片Sohu推理性能超H100二十倍
史上最快Transformer芯片诞生了!用Sohu跑Llama 70B,推理性能已超B200十倍,超H100二十倍!刚刚,几位00后小哥从哈佛辍学后成立的公司Etached,宣布再融资1.2亿美元。
有史以来最快的Transformer芯片,刚刚诞生了?
去年21岁哈佛辍学华裔小哥的神级创业故事,进化到了新的阶段。
这一次,号称专为LLM推理加速打造的Sohu芯片,已经成超越Groq,成为最强AI芯片。
如今的Sohu,在跑Llama 70B时每秒可生成高达500000个token的输出。
换句话说就是:1张Sohu≈20张H100≈10张B200。
在去年12月,Etced就曾火过一阵,当时两位哈佛辍学小哥的2人公司,估值已经高达3400万刀。当时Sohu号称LLM推理性能达到H100的10倍,单价吞吐量更是高达140倍。
而就在刚刚,Etced又宣布了炸裂的新消息:已筹到1.2亿美元。
就在上周,英伟达的市值达到3.3万亿美元,超过微软成为全球第一。而Etched相信,自己的35人团队能够击败英伟达。
他们的豪放预言,得到了硅谷真金白银的支持。投资名单中,是一众豪华的机构和硅谷大佬,包括Peter Thiel。
Primary Venture Partners和Positive Sum Ventures领投了这轮融资,机构投资者包括 Hummingbird、Fundomo、Fontinalis、Lightscape、Earthshot、Two Sigma Ventures和 Skybox Data Centers。
天使投资者包括Peter Thiel、Stanley Druckenmiller、David Siegel、Balaji Srinivasan、Amjad Masad、Kyle Vogt、Kevin Hartz、Jason Warner、Thomas Dohmke、Bryan Johnson、Mike Novogratz、Immad Akhund、Jawed Karim和Charlie Cheeve。
Etched创始人之一Gavin Uberti表示,「我们正在押注人工智能领域最大的赌注——一种只能运行Transformer模型的芯片,但其运行速度比GPU快几个数量级。也许注意力确实是你所需要的全部…」
Pika研究人员表示,每秒50万token简直太疯狂了。你可以在2秒内写出「圣经」,或者一年内生成15万亿token。
Sohu大约每秒能输出21个人一天说的话,简直太不真实了。
Thiel Fellowship的主任Alex Handy,对几位年轻人表示了高度的赞许:「投资Etched是对 AI 价值的战略性押注。他们的芯片解决了竞争对手不敢面对的可扩展性问题,挑战了同行中普遍存在的停滞状态。」
在他看来,正是因为几位小哥做了底层的工作,硅谷的程序员们才能继续安心编程,不必担心正在开发技术的底层出问题。
两年前开始的豪赌
这个传奇的故事,始于两年前。
2022年,几位创始人就打赌:Transformer将占领世界。
为此,他们花了两年时间打造Sohu,这是世界上第一个用于Transformer的专用芯片(ASIC)。
将Transformer架构烧录到Sohu芯片后,它无法运行大多数的传统AI模型:比如DLRMs、AlphaFold 2,或Stable Diffusion 2;也无法运行CNNs、RNNs或LSTMs。
但对于Transformer来说,Sohu确实是有史以来最快的芯片。但它还可以更快。
对于Llama 70B,Sohu的吞吐量每秒超过了50万个token,因此它可以构建在GPU上根本不可能实现的产品。
而且,它甚至比英伟达的下一代Blackwell(B200)更快、更便宜!
如今最先进的AI模型,无一不是基于Transformer的,比如ChatGPT、Sora、Gmini、Stable Diffusion 3等等。
如果Transformer被SSM、RWKV或任何新架构取代,那Sohu将毫无用处。
但是,创始人小哥表示,如果他们押对了,Sohu将彻底改变世界!
这,就是一场豪赌。
Scale是「超级智能」所需的全部?
五年内,AI模型在大多数标准化测试中,超越了人类。
这是怎么做到的?
因为Meta用于训练Llama 400B(2024年SOTA模型)的计算量,比OpenAI训练GPT-2(2019年SOTA模型)多5万倍。
OpenAI用Scaling Law预测了GPT-4性能,并预计GPT-5+同样适用
奥特曼曾说过,「扩展参数规模确实非常重要。当我们在太阳周围建造了一个戴森球(Dyson Sphere)之后,我们才可以考虑讨论是否应该停止这么做,但在那之前不应该停下来」。
也就是说,通过向LLM提供更多的算力和更好的数据,才使得AI变得更加智能。
不得不承认,参数规模扩展(Scale)将会是几十年来唯一持续有效的方法。
每个大型AI公司(谷歌、OpenAI/微软、Anthropic/亚马逊等)都在未来几年投入超1000亿美元来继续扩大LLM规模。
然而,再扩展1000倍必定是昂贵的,形象地解释,下一代数据中心的成本将超过一个小国的GDP。
按照目前的发展速度,我们的硬件、成本、财力根本无法跟得上。
GPU撞墙了
圣克拉拉,英伟达总部所在地,不愿意让人知道的小秘密是——
GPU性能其实没有变得更好,只是变得更大了。
过去四年里,芯片单位面积的计算能力(每平方毫米的TFLOPS)几乎没有提升。
就比如,英伟达的B200、AMD的MI300、英特尔的Gaudi 3,以及亚马逊的Trainium2都将2个芯片集成到一张卡上,以使其性能翻倍。
如下曲线图中,也可以看出,从2022年-2025年,AI芯片并没有真正变得更好只是变得更大了。
在过去四年中,计算密度(TFLOPS/mm^2)仅提高了约15%。
而现在,随着摩尔定律的放缓,提高芯片性能的唯一途径,便是让其走向「专用」化。
专用芯片,势在必行
在Transformer占领世界之前,许多公司构建了灵活的AI芯片和GPU来处理数百种不同的机器学习架构。
举几个例子:
却从来没有人制造,针对特定算法的AI芯片(ASIC)。
因为,全新的芯片项目需要花费5000万-1亿美元,甚至要用许多年的时间才能投入生产。
当Etched开始着手这一项目时,根本就不存在这样的市场。
突然间,这种情况一下子发生了转变。
ChatGPT出现之前,Transformer的推理市场规模大约是5000万美元。
而现在,已经达到数十亿美元。所有的科技巨头,初创公司都在使用Transformer模型。
大模型架构,都在走向融合趋同。自从GPT-2诞生以来,最先进的模型架构几乎保持一致!
OpenAI GPT系列、谷歌PaLM、Meta Llama,甚至特斯拉的全自动驾驶系统,都采用了Transformer架构。
当模型的训练成本超过10亿美元,推理成本超过100亿美元时,专用芯片的出现是必然的。
在这种巨大参数规模之下,即使只有1%的性能提升,也足以证明5000万-1亿美元的定制芯片项目是值得的。
实际上,ASIC的速度要比GPU快很多个数量级。
Transformer拥有巨大的护城河
Etched.ai的几位创始人表示,他们相信硬件彩票——能在硬件上运行得最快、最便宜的模型,就是获胜的那一个。
而Transformer拥有巨大的护城河,足以在替代方案成熟之前主导各大AI计算市场。
理由如下——
- Transformer正在为每一个大型AI产品提供支持,无论是Agent、搜索还是聊天。
为了优化GPU去适应Transformer,AI实验室已经在研发上投入了数亿美元。
无论是当前还是下一代SOTA模型,都是基于Transformer的。 - 随着未来几年模型训练的规模从10亿美元扩大到100亿美元,再到1000亿美元,测试新架构的风险也急剧上升。
与其重新测试Scalling law和性能,不如把时间花在基于Transformer的功能开发上,比如多token预测。 - 当前的软件栈,已为Transformer进行了优化。每个流行的库(TensorRT-LLM、vLLM、Huggingface TGI等),都有在GPU上运行Transformer模型的专用内核。
许多建立在Transformer之上的功能,比如推测解码、树搜索等,在替代方案中都很难得到支持。
Sohu可以通过树搜索更好地编码,能够并行比较数百个响应
4. 未来的硬件栈,也将为Transformer进行优化。比如英伟达的GB200,对Transformer Engine就有特殊的支持。
随着像Sohu这样的ASIC进入市场,将会带来一种不可逆的趋势。
也就是说,作为「Transformer Killer」的模型需要在GPU上,运行得比Sohu上的Transformer更快。
而但凡出现这种情况,创始人表示,他们也会为此构建一款全新的ASIC!
Sohu支持多重推测解码,可以实时生成新内容
Sohu来了!
Sohu是世界上第一个Transformer ASIC。
通过专门化,Sohu获得了前所未有的性能。一台8xSohu服务器每秒可以处理超过50万个Llama 70B token,等效于160块H100 GPU。
Sohu仅支持Transformer推理,并支持当今所有的模型(Google、Meta、Microsoft、OpenAI、Anthropic等),以及处理未来模型的调整。
无论是Meta的Llama、谷歌的Gemini、OpenAI的GPT、Anthropic的Claude、还是Stability AI的Stable Diffusion 3等等,都可以。
由于Sohu只能运行一种算法,因此绝大多数的控制流逻辑可以被移除,从而允许其拥有更多的数学模块。
结果就是,Sohu的FLOPS利用率高达90%以上;相比之下,使用TRT-LLM的GPU仅为为30%左右。
如何实现比GPU更多的FLOPS?
目前最先进的算力——英伟达H200,在没有稀疏处理的情况下具有989 TFLOPS的FP16/BF16算力。(超过了Google的新Trillium芯片之一)
而2025年推出的GB200,将会在算力上增加25%(每个芯片1250 TFLOPS)。
由于GPU的大部分面积都用于可编程性,因此专注于Transformer可以容纳更多的算力。
从基本原理上来看,这一点可以很容易被证明:
制造一个FP16/BF16/FP8乘法加法电路(所有矩阵数学的基础构件)需要10,000个晶体管。H100 SXM有528个张量核心,每个核心有4×8×16个FMA电路。通过计算可以得到,H100有27亿个晶体管专用于张量核心。
实际上,H100拥有800亿个晶体管!这意味着在H100 GPU上的晶体管中,仅有3.3%用于矩阵乘法!
但问题是,如果想要为各种模型(CNN、LSTM、SSM等)都提供支持,就不得不采取这样的设计。
这时,如果选择只运行Transformer,就可以在芯片上容纳更多的FLOPS,且无需依赖更低的精度或稀疏处理。
推理的瓶颈是内存带宽,而非计算?
事实上,对于像Llama-3这样的现代模型,并非如此!
使用英伟达和AMD的标准基准测试——2048个输入token和128个输出token,大多数AI产品的输入都要比输出长得多(即使是新的Claude聊天,系统提示也有1000多个token)。
在GPU和Sohu上,推理是以批次运行的。每个批次都会加载一次所有的模型权重,并在批次中的每个token上重复使用它们。
通常,LLM的输入是计算密集的,而LLM的输出是内存密集的。所以,当我们将输入和输出token与连续批处理结合时,工作负载就会变得非常「计算密集」。
下图的示例中,就展示了连续批处理LLM的过程。
这个过程中,会运行带有四个输入token和四个输出token的序列;每种颜色代表一个不同的序列。
同样的技巧,就可以扩展到2048个输入token和128个输出token的Llama-3-70B上。
要让每个batch,都包含一个序列的2048个输入token,和127个不同序列的127个输出token。
如果这样做的话,每个batch将需要大约(2048+127)×70B参数×每个参数2字节=304 TFLOPs,同时只需要加载70B参数×每个参数2字节=140 GB的模型权重,以及大约127× 64×8×128×(2048+127)×2×2=72GB的KV缓存权重。
这需要的计算,就远超过内存带宽的需求,因为一个H200需要6.8PFLOPS的计算能力,才能最大化其内存带宽。
而且,这是在100%利用率的情况下——如果利用率是30%,需要的计算能力还要多出3倍。
由于Sohu有极高的计算能力和高利用率,我们就可以在不受内存带宽限制的情况下,运行巨大的吞吐量。
注:在现实世界中,batch通常更大,输入长度各不相同,并且请求会以泊松分布到达。在这种情况下,Sohu的效果会更好。在这里之所以使用2048/128基准作为例子,是因为英伟达和AMD都在使用。
只需编写Transformer软件即可
无论在GPU和还是TPU上,软件都是一场噩梦。
处理任意的CUDA和PyTorch代码,需要的编译器极其复杂。
为此,AMD、英特尔、AWS这些第三方AI芯片,都在软件上投入了数十亿,但效果依然不佳。
这里,Sohu的好处就体现出来了——因为它只运行Transformer模型,所以我们只需要为Transformer模型编写软件!
大多数运行开源或内部模型的公司,都会使用特定的Transformer推理库,如TensorRT-LLM、vLLM或HuggingFace的TGI。
这些框架往往很死板,虽然我们可以调节模型的超参数,但并不支持更改底层的模型代码。
但是,没有关系!所有的Transformer模型都非常相似(即使是文本、图像、视频模型),调节超参数就足够了。
这样,就足以支持95%的AI公司了,不过,最大的AI实验室,仍然会进行定制化开发。
工程师团队会手动调优GPU内核,以挤出更多的利用率,并进行逆向工程,比如哪些寄存器对每个张量核心的延迟最低。
而创始人声称,有了Etched,我们就不再需要逆向工程了!
从驱动程序到内核再到服务框架,Etched的所有软件都会是开源的。
如果我们想实现一个自定义的Transformer层,内核专家完全可以自由地去做。
Etched已经破纪录,将成历史第一
现在看起来,Etced的决定很疯狂。
但更疯狂的是,他们是在2022年做出这项决定的——那时ChatGPT甚至还不存在!
当时,图像和视频生成模型还是U-Net模型,自动驾驶汽车是由卷积神经网络(CNNs)驱动的,Transformer架构还远未普及。
而现在,形势显然对他们非常有利。如今从语言到视觉,每个领域的顶尖模型都是Transformer。
这种趋同验证了Etced的前瞻性,更使Sohu成为十年来最重要的硬件项目。
种种迹象表明,公司正走在史上最快芯片发布的进程中——
- 顶尖的AI研究人员和硬件工程师纷纷离职原团队,加入Etced;
- Etced会直接和台积电合作开发4nm工艺,并且获得了足够的HBM和服务器,第一年的产量可以快速提升;
- Etced的早期客户,已经预订了数千万美元的硬件
「如果我们是对的,Sohu将改变世界」
如果AI模型在一夜之间,速度飙升20倍,且成本降低20倍,会发生什么?
目前,Gemini需要60多秒才能回答一个与视频相关的问题。
编码智能体的成本,比软件工程师更高,而且需要数小时才能完成任务。
视频模型每秒只能生成一帧,甚至ChatGPT注册用户达到1000万时(仅占全球用户的0.15%),就耗尽了OpenAI的GPU容量。
即便是持续以每两年2.5倍的速度增加GPU的容量,也得需要10年时间,才能实现「实时」视频生成。
而现在有了Sohu,这一切将瞬时完成。
网友表示,「AI的未来是定制硬件,实时视频模型即将现世」!
如果当实时视频、通话、AI智能体和搜索功能终于能够顺畅运行时,会发生什么呢?
很快,你就能知道了。
三位哈佛辍学生,挑战AI芯片霸主英伟达
成立于2022年,这家35人团队的初创公司Etched,坚信一定能够击败英伟达。
到底是什么样的背景,能让三位哈佛辍学生,敢于挑战芯片行业目前最炙手可热的赛道呢?
Robert Wachen、Gavin Uberti、Chris Zhu
创始人兼CEO Gavin Uberti自2020入学哈佛攻读数学专业,随后在2022年攻读硕士学位,专业是计算机。
不过,这两段上学经历,都以辍学告终。
在创办Etched之前,Gavin Uberti曾在另外两家公司分别有过一段全职和简直经历,担任了算法和后端工程师,以及软件工程师。
在进入大学之前,他参与了美国最著名的青少年科技创新大赛FIRST Tech Challenge,团队获得了Top 10奖项。团队开发的自动驾驶软件排在600个参赛团队第二名。
他还曾在2019年,拿过美式数学竞赛的冠军。
另一位创始人Chris Zhu,也是在哈佛就读时就在校外疯狂实习,甚至还没有从哈佛毕业,就已经成为兼职教员。
他个人的工作经历更为丰富些,不仅在高校MIT担任研究员、哈佛兼职教学研究员,还曾在亚马逊等公司做过实习。
最后一位联创兼COO Robert Wachen是一个多领域的创业者,曾创办了4家公司。
接下来,就看看他们会如何去缔造一个新的硅谷神话。
参考资料:
https://www.etched.com/announcing-etched