DeepSeek的创作背景

最新推荐文章于 2025-05-11 14:15:46 发布

2501_91021487

最新推荐文章于 2025-05-11 14:15:46 发布

阅读量384

点赞数 3

文章标签： java

本文链接：https://blog.csdn.net/2501_91021487/article/details/146098453

版权

DeepSeek（深度求索人工智能基础技术研究有限公司）是一家专注于人工智能技术研发的公司，成立于2023年7月17日，由知名量化资管巨头幻方量化创立。其发展背景可以概括为以下几个方面：

1. 成立背景与早期发展

DeepSeek的成立源于幻方量化对人工智能技术的深度投入。早在2023年4月，幻方量化就宣布将全力投身人工智能领域，为DeepSeek的诞生奠定了基础。公司成立后，迅速投入大语言模型（LLM）的研发，并于2024年1月发布了首个大模型DeepSeek LLM，标志着其在AI领域的初步探索。

2. 技术突破与模型迭代

DeepSeek在技术路径上采用了创新的混合专家模型（MoE）架构和低精度训练技术，显著降低了模型训练和推理成本。例如，其DeepSeek-V3模型的训练成本仅为557.6万美元，远低于同类模型的成本。公司通过不断迭代模型，从DeepSeek-V1到DeepSeek-R1，逐步提升了模型的性能和适用性，尤其在数学、代码生成和复杂逻辑推理任务中表现出色。