【大模型】DeepSeek 的人工智能发展之路

初出茅庐:成立与奠基(2023 年)

2023 年,在人工智能浪潮席卷全球之际,各大科技公司纷纷布局。幻方量化凭借在量化投资领域积累的技术与数据优势,敏锐捕捉到这一发展趋势。2023 年 4 月,幻方量化发布公告,宣布全力投身人工智能技术领域,并成立新的独立研究公司 —— 深度求索(DeepSeek),为 DeepSeek 的诞生埋下了种子。

[此处插入一张 2023 年科技行业动态相关图片,展示当时人工智能发展浪潮的热度,比如众多科技公司的 AI 发布会场景图]

2023 年 7 月 17 日,DeepSeek 在杭州市拱墅区市场监督管理局登记正式成立。公司由知名量化资管巨头幻方量化创立,法定代表人系裴湉,位于浙江省杭州市拱墅区环城北路 169 号汇金国际大厦西 1 幢 1201 室。尽管刚刚成立,DeepSeek 却有着明确的目标,专注于开发先进的大语言模型(LLM)和相关技术,致力于在人工智能领域崭露头角,开启属于自己的征程。

崭露头角:大模型的初步发布(2024 年)

首个大模型 DeepSeek LLM 发布(2024 年 1 月 5 日)

2024 年 1 月 5 日,DeepSeek 发布了首个包含 670 亿参数的大模型 DeepSeek LLM。该模型从零开始,在一个包含 2 万亿 token 的数据集上进行训练,数据集涵盖中英文。通过在如此大规模且多样化的数据集上训练,DeepSeek LLM 具备了强大的语言理解和生成能力,能够处理各种复杂的自然语言任务,为 DeepSeek 后续模型的优化与改进提供了经验和数据基础,也让 DeepSeek 在大模型领域迈出了坚实的第一步,吸引了业界的目光,为公司树立了初步的技术形象。

[此处插入一张展示 DeepSeek LLM 模型架构或训练数据相关的图片,比如模型架构图或数据集规模示意图表]

开源第二代 MoE 大模型 DeepSeek-V2(2024 年 5 月)

2024 年 5 月,DeepSeek 宣布开源第二代 MoE 大模型 DeepSeek-V2。在性能方面,它表现卓越,可与 GPT-4Turbo 比肩,然而其价格却只有 GPT-4 的仅百分之一,这一巨大的性价比优势,使得 DeepSeek 收获了 “AI 届拼多多” 的名号。该模型采用了创新的模型架构和训练方法,如全新的 MLA(Multi-head Latent Attention)注意力机制和 DeepSeekMoE 前馈网络,大幅降低了计算量和显存占用,确保了高效推理。同时,它支持 128K 的超长上下文,且在 GPU 上的推理吞吐量高达每

### 部署大型AI模型DeepSeek于本地环境指南 #### 准备工作 为了成功地在本地环境中部署像DeepSeek这样的大规模AI模型,需先确认计算机硬件满足最低配置需求。这通常涉及足够的GPU内存、CPU核心数以及充足的磁盘空间来存储模型文件及其依赖项[^2]。 #### 安装必要的软件包 安装过程中会用到多种Python库和其他工具链。建议创建一个新的虚拟环境以隔离这些依赖关系。对于特定版本控制下的库管理,`pipenv` 或 `conda` 是不错的选择。以下是部分可能需要用到的命令: ```bash # 创建并激活新的Conda环境 conda create -n deepseek python=3.9 conda activate deepseek # 使用Pipenv初始化项目 pipenv install --dev ``` #### 获取预训练模型权重 大多数情况下,官方文档或GitHub仓库中会有详细的说明指导下载预训练参数的方法。如果采用的是私有云服务,则应遵循相应的API接口规范获取资源访问权限令牌[^1]。 #### 构建推理引擎 构建用于执行预测任务的服务端程序时,可以考虑利用FastAPI框架快速搭建RESTful API服务器实例。下面是一个简单的例子展示如何定义一个POST请求处理函数来进行图像分类操作: ```python from fastapi import FastAPI, File, UploadFile import torch from PIL import Image from torchvision.transforms import ToTensor app = FastAPI() model = None # 初始化全局变量保存加载后的模型对象 @app.on_event("startup") async def load_model(): global model device = "cuda" if torch.cuda.is_available() else "cpu" model_path = "./models/deepseek.pth" model = torch.load(model_path).to(device) @app.post("/predict/") async def predict(file: UploadFile = File(...)): img_bytes = await file.read() image = Image.open(io.BytesIO(img_bytes)) transform = ToTensor() tensor_img = transform(image).unsqueeze(0) with torch.no_grad(): output = model(tensor_img.to(device)) prediction = ... # 处理输出得到最终结果 return {"prediction": prediction} ``` #### 测试与优化性能 完成上述步骤之后,可以通过发送HTTP POST请求测试新建立的服务是否正常运作。针对可能出现的速度瓶颈问题,可尝试调整批处理大小(batch size),启用混合精度计算(mixed precision training)等方式提高效率[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

知识靠谱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值