在科技飞速发展的当下,人工智能领域的竞争愈发激烈。最近,一家来自中国的 AI 公司 DeepSeek 成功吸引了全球的目光,尤其是让美国各界为之震惊。
DeepSeek 的 AI 产品在市场上取得了惊人的成绩。其 APP 上线后,下载量一路飙升,短时间内便超越了 ChatGPT,迅速在全球多个国家和地区的应用商店中名列前茅,甚至在美国地区也成功登顶下载榜。不仅如此,DeepSeek 所推出的大语言模型,在性能上更是可圈可点。像是 DeepSeek-R1,在数学、代码、自然语言推理等任务上,性能比肩 OpenAI 的 o1 正式版 ,在 AIME2024 数学竞赛中,DeepSeek-R1 取得了 79.8% 的成绩,略高于 OpenAI 的 o1-1217;在 MATH-500 测试中,两者也相当,均达到了 97.3% 的高分,同时显著优于其他模型。
这一消息犹如一颗重磅炸弹,在美国引发了强烈反响。特朗普公开回应,不认为 DeepSeek 构成国家安全威胁,还表示这是技术的发展,将有助于降低人工智能的成本,美国最终可以从中受益 。然而,并非所有人都持有如此理性的态度。部分美国政客妄称 DeepSeek 等中国 AI 模型 “威胁美国国家安全”,鼓吹对 “AI 基础设施的关键技术” 实施更严格的出口管制 。美国国防部以及国会众议院更是对工作人员发布了禁用 DeepSeek 的指令。
与此同时,美国科技股也受到了 DeepSeek 的影响。投资者担忧 “算力需求神话” 破灭,1 月 27 日,美国主要科技股市值开盘缩水超 1 万亿美元,英伟达股价带头跳水 16.86%,市值蒸发 5890 亿美元 。但有趣的是,尽管美国官方层面试图抵制 DeepSeek,美国的科技巨头们却纷纷选择拥抱它。英伟达、英特尔、AMD、亚马逊以及微软等公司,或在自家平台上线 DeepSeek 服务,或针对 DeepSeek 进行深度优化。
DeepSeek 究竟凭借什么让美国既恐慌又着迷?它的出现又会给全球 AI 格局带来怎样的改变?让我们一同深入探究。
技术实力:实力过硬,比肩美国顶尖
DeepSeek 之所以能在全球 AI 领域掀起波澜,其强大的技术实力是关键。在核心技术层面,DeepSeek 采用了一系列创新技术,如强化学习、混合专家架构(MoE)等 。
强化学习在 DeepSeek 的技术体系中扮演着重要角色。以 DeepSeek-R1 模型为例,其通过 Group Relative Policy Optimization(GRPO)强化学习算法,实现了推理能力的大幅提升。在训练过程中,模型通过自我验证、反思等方式,不断优化推理过程,学会了复杂的推理行为 。在 AIME 2024 数学竞赛任务中,DeepSeek-R1-Zero 的 Pass@1(即第一次生成答案的正确率)从 15.6% 提升到了 71.0% ;在代码推理任务 Codeforces 中,它的排名比 50% 的人类参赛者更强。
混合专家架构(MoE)也是 DeepSeek 的一大技术亮点。DeepSeek-V3 采用了这一架构,总参数达 6710 亿,但每个输入只激活 370 亿参数 。通过将模型划分为多个专家模块,每个专家负责处理不同的任务,在推理时根据输入数据的特性选择最适合的专家进行处理,从而提高了计算效率,减少了不必要的计算量 。与传统的深度学习模型相比,这种架构能够更好地处理复杂任务,提升模型的性能。
与美国的主流 AI 模型相比,DeepSeek 在多个方面展现出了优势。在自然语言处理任务中,DeepSeek 对语义的理解更加精准,生成的文本更加自然流畅。在回答复杂的问题时,DeepSeek 能够从多个角度进行分析,提供全面且深入的答案。在代码生成任务中,DeepSeek 能够快速生成高质量的代码,并且在代码的可读性和可维护性方面表现出色,能够帮助开发者提高编程效率。在数学推理任务上,DeepSeek-R1 更是达到了 OpenAI-o1-1217 的性能水平,在 MATH-500 测试中,两者均达到了 97.3% 的高分,展现出了强大的数学解题能力。