老A的AI实验室-CSDN博客

大语言模型的训练过程一般包括3个阶段：预训练（Pre-training）、SFT（有监督的微调，Supervised-Finetuning）以及RLHF（基于人类反馈的强化学习，Reinforcement Learning from Human Feedback），其中SFT和RLHF不是必须的流程。

2024-04-09 20:47:10 2872

原创揭秘ChatGPT预训练数据集

自大语言模型引领新一代的AI浪潮之后，对于Open AI发布的GPT系列LLM使用的数据集一直是行业内的谜，我们都知道，随着模型的参数量提升，预训练数据的使用量也同步增加，下面就让我们从相关论文和分析从探索GPT-X大模型的预训练数据集。

2024-04-09 17:46:16 1643

原创 Cyber Weekly #1

赛博周刊（Cyber Weekly），每周一上午发布，欢迎点赞、评论、收藏。

2024-04-08 13:40:11 600

原创大语言模型RAG vs. 长文本

在学习完大语言模型中最热门的两个概念大语言模型落地的关键技术：RAG和大语言模型上下文窗口初探后，关于RAG和长文本（long-context）的优劣比较引起了广泛的讨论，本文整理了大语言模型RAG vs. 长文本争论的5种类观点。

2024-04-07 14:23:44 2397

原创大语言模型上下文窗口初探（下）

由于篇幅原因，本文分为上下两篇，上篇主要讲解上下文窗口的概念、在LLM中的重要性，下篇主要讲解长文本能否成为LLM的护城河、国外大厂对长文本的态度。

2024-04-07 12:26:13 1397

原创大语言模型上下文窗口初探（上）

由于篇幅原因，本文分为上下两篇，上篇主要讲解上下文窗口的概念、在LLM中的重要性，下篇主要讲解长文本能否成为LLM的护城河、国外大厂对长文本的态度。

2024-04-07 12:19:46 2487

原创大语言模型RAG项目实战

学习完大语言模型落地的关键技术：RAG的相关概念，我们今天来用代码实现一下RAG。

2024-04-06 22:43:47 834

原创大语言模型落地的关键技术：RAG

RAG 是检索增强生成（Retrieval-Augmented Generation）的简称，是当前最火热的大语言模型应用落地的关键技术，主要用于提高语言模型的效果和准确性。

2024-04-06 22:26:01 2479

原创深度解析GPT中的Tokenizer

继学习完深度解析大语言模型中的词向量后，让我们继续学习大语言模型中另外几个重要概念：token（词元）、tokenization（词元化）、tokenizer（词元生成器）。

2024-04-04 17:46:29 1355 2

原创深度解析大语言模型中的词向量

在学习完语言模型中的编码器与解码器知识后，让我们继续深入学习大语言模型中一个非常关键的技术：词向量表示，以及如何通过Transformer模型实现对next token的预测。

2024-04-04 16:58:50 2099

语言模型主要分为三大类：一是“仅编码器（encoder-only）”组，该类语言模型擅长文本理解，因为它们允许信息在文本的两个方向上流动。二是“仅解码器（decoder-only）”组，该类语言模型擅长文本生成，因为信息只能从文本的左侧向右侧流动，以自回归方式有效生成新词汇。三是“编码器-解码器（encoder-decoder）”组，该类语言模型对上述两种模型进行了结合，用于完成需要理解输入并生成输出的任务，例如翻译。

2024-04-03 23:35:34 1284

EKF估计SOC

精通正则表达式

统计学习方法-机器学习必备书籍

改变未来的九大算法

皇帝新脑-有关电脑、人脑及物理定律

web前端必备手册

空空如也