![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 75
祖国翔
https://www.linkedin.com/in/guoxiang-zu/
展开
-
什么是RAG(Retrieval Augmented Generation)
RAG,Retrieval Augmented Generation(检索增强生成),是一个框架,这个框架可以构建以大预言模型为基础的系统,它利用外部数据源来弥补大语言模型的局限性。RAG是克服知识截止问题的有效方式,可以帮助模型更新对世界的理解。原创 2024-06-22 12:34:39 · 897 阅读 · 0 评论 -
参数高效微调方法详解(PEFT,Parameter Efficient Fine-Tuning)
你可以使用几种方法进行参数高效微调,每种方法在参数效率、内存效率、训练速度、模型质量和推断成本方面都有权衡。本文主要讲解了参数高效微调方法的三类中的两类的两种方法,LoRA 和prompt tuning。原创 2024-04-15 18:23:28 · 1352 阅读 · 0 评论 -
影响大型语言模型生成文本时行为的配置参数
一些参数可以在推理过程中影响模型的输出,这些参数包括最大新 token 数、随机抽样、top k 抽样、top p 抽样和温度,本文我们详细讲解这些参数。原创 2024-04-15 17:32:42 · 792 阅读 · 0 评论 -
Transformer 架构变种总结
虽然Transformer 论文Attention Is All You Need 为了翻译任务使用了transformer的编码器和解码器部分,但你可以将这些组件拆分开来进行架构的变化。仅有编码器的模型也可以作为序列到序列模型,编码器-解码器模型,仅有解码器的模型(如今是最常用的之一)。原创 2024-03-27 12:51:44 · 273 阅读 · 0 评论 -
Transformer 预测过程 详解
我们看到很多文章讲了transformer架构的高层概述,包括其中一些主要组件。但大部分文章没有讲整个预测过程是如何一步步进行的。让我们通过一个简单的例子来详细了解一下。在这个例子中,你将会看到一个翻译任务或者序列到序列任务,这恰好是transformer架构设计者最初的目标。原创 2024-03-27 12:46:42 · 685 阅读 · 0 评论 -
chatGPT 背后的技术 之 Transformer 详解
transformer 是为了翻译任务而研发的,就是适用于序列到序列的模型,连作者都没想到,transformer后来会如此通用原创 2024-03-24 23:13:48 · 835 阅读 · 0 评论 -
chatGPT 背后的技术 之 GPT1
GPT1是一种通过生成式预训练和判别式微调实现强大自然语言理解的框架。通过在包含大段连续文本的多样语料库上进行预训练,模型获得了丰富的世界知识和处理长距离依赖的能力,然后成功地将这些能力转移到解决问题回答、语义相似度评估、蕴涵判定和文本分类等判别任务上,提高了所研究的12个数据集中的9个的最新技术水平。原创 2024-03-15 23:40:15 · 947 阅读 · 0 评论 -
chatGPT 背后的技术 之 GPT2
这篇文章我们讲GPT3的基础,也是上一代GPT, GPT2。GPT-2, 是一个有15亿参数的 Transformer 模型,但尽管模型有15亿参数,但还是underfits 他们使用的数据集WebText,也就是说当时他们就知道,模型更大,会有更好的效果(我们知道,后来GPT-3模型有1750亿参数,大了两个数量级)原创 2024-03-11 22:46:27 · 854 阅读 · 0 评论