随着人工智能技术的迅猛发展,大语言模型(LLM)已成为推动技术变革的核心力量之一。在这一领域中,一家成立仅短短一年多的中国公司——DeepSeek,凭借其独特的技术路线和创新方法,迅速崛起为全球AI领域的焦点。本系列博客将带您深入探索DeepSeek的技术世界,从公司背景、技术原理到实际应用,全面了解这一引领AI新范式的中国大模型公司。
DeepSeek的创立背景
DeepSeek全称杭州深度求索人工智能基础技术研究有限公司,由幻方量化的联合创始人梁文峰创立。公司于2023年7月正式成立,专注于大语言模型(LLM)及其相关技术的深度研发[26]。作为幻方量化孵化并全资控股的企业,DeepSeek被定位为通用人工智能(AGI)和大模型研发的技术引擎[27]。
梁文峰作为量化投资领域的成功企业家,其创立DeepSeek的背景也颇具看点。根据相关资料,早在2016年10月21日,High-Flayer(幻方量化前身)就已经开始采用依赖GPU的深度学习模型进行股票交易,到2017年底,其大部分交易已由人工智能驱动。这种从量化投资到AI技术的