![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型
文章平均质量分 97
1o0.0o1
广大苦逼程序员
展开
-
Datawhale AI夏令营- 讯飞机器翻译挑战赛: 基于transformer框架实现
本文章基于使用了transformer模型去实现了一个英译中的模型,并参加了讯飞科大的NLP翻译比赛。原创 2024-07-16 21:14:01 · 1147 阅读 · 0 评论 -
手搭一个大模型part3-构建一个Agent
在人工智能领域,Agent(智能体)是指一种能够感知环境并采取行动以实现特定目标的系统或实体。本文介绍的Agent是基于ReAct框架的智能体,它结合了推理和行动能力,以高效解决复杂的语言理解和决策任务。一个标准的Agent,往往会有如下能力: 记忆(存储历史信息功能), 工具(能够调用的工具信息), 行动(即识别到该调用哪些工具后能够自主调用这些工具), 规划(收到用户指示后该怎么去处理这个问题)。原创 2024-05-24 19:30:34 · 689 阅读 · 1 评论 -
手搭一个大模型-part2-构建一个RAG
LLM 的底层设计机制决定了其生成的回答本质上是基于概率而非既定事实。由于 LLM 缺乏自行校准生成内容的能力,这项工作通常由人类来完成,导致只要生成的内容符合其语言逻辑,即使与事实大相径庭,LLM 也会毫不犹豫地输出。在人们看来,这就像是一本正经地胡说八道。幻觉问题难以从根源上解决,因为这种概率性也是 LLM 能展现出创新性的关键所在,但我们可以通过一些方法提高模型回答的准确性。其中RAG就是解决这个’幻觉’问题的方法之一。RAG全称为Retrieval-Augmented Generation。原创 2024-05-20 20:31:23 · 990 阅读 · 1 评论 -
手搭一个大模型-part1-Qwen模型的介绍
介绍完Transformer和GPT模型后,接下来就是正题,手搭一个千问大模型。首先我们先看看千问大模型的结构图我们现在看主干部分,是不是很熟悉。和我们GPT模型的结构是不是很相似?现在基本上大模型都是基于GPT的结构来实现的,唯一不同的是可能对GPT每一个模块都有了一定程度的魔改,从而达到GPT模型所做不到的程度。接着我们开始介绍每一部分的实现在词向量经过了多个Decoder层堆叠后,来到了最后(用HSHSHS。原创 2024-05-16 19:27:07 · 1694 阅读 · 0 评论