AI LLM 逻辑与实践
文章平均质量分 85
要真正理解LLM内含,到底是怎么做的,及后面蕴含的核心思想,本专栏将一步一步为你揭示其模后的技术与思想。AI LLM 背后的逻辑与Python 技术落地实践
PhoenixAI8
Uestc毕业17年,一直从事software开发及管理,期间发表发明专利10多篇。最近几年开始痴迷AI,望大家一同进步。
展开
-
机器学习LLM(6)--- 句子翻译学习背后的逻辑及实现
有了前面LLM(1-5)的基础,如果你有仔细阅读。你应该知道LLM的技术内幕和实现原理。包括分词,索引,序列化,padding对齐,词向量embedding的构建及学习,encoder,attention机制,及decoder的处理方式。下面就其他一些系统剩余问题作出解释和讨论,希望你你可以从之前LLM(1-5)的积木,拼出一个LLM全貌并详细了解实现的技术细节和实现原理。我们现在还需要知道的是通过机器学习,怎么在train的过程中自动调整LLM模型的参数,或者说使得梯度下降更优。首先我们要清楚,作原创 2024-06-13 16:28:20 · 471 阅读 · 0 评论 -
机器学习LLM(5)--- 句子训练的decoder的逻辑及背后的思想
Attention只是decoder与encoder中比较重要的一环。从LLM(4)中,可以看到他结合encoder输出的(64,27,1024)也就是 (batch_size, max_sentense_length, coding_units),与第一次encoder产生的(64, 1024), 因为第一次产生前没有数据,是批量句子的第一个单词序列组,只能来自encoder的输出以及后续每次decoder更新后的中间变量(64, 1024),其实就是 (batch_size, coding_uni原创 2024-06-13 15:58:47 · 256 阅读 · 0 评论 -
机器学习LLM(4)--- 句子训练的Attention的逻辑及背后的思想
通过前面三节的详细介绍,你应该知道句子从分词,索引,序列化,padding后,对词行进向量表示,以及如何在batch_size的条件下,如何将句子从shape 为(batch_size, max_length) ,经过encoder 转换为 (batch_size, max_length, encoding_num)以及最后一轮结合了max_length 迭代次数后的(batch_size, encoding_num)的输出。本章节的重点是讲述在LLM(1,2,3)基础上的Attention机制。很多书原创 2024-06-13 14:58:50 · 358 阅读 · 0 评论 -
机器学习LLM(3)--- 句子训练的Encoder逻辑及背后的思想
在LLM前面两篇文章也描述过,机器学习LLM一定是一批量进行的,所以你在训练之前,你肯定要将句子找到最长句子,进行分词,索引化,padding,并使用embedding layer或是加载你实现准备好的词向量数据文件,比如glove.50d 进行加载。这里就不再叙述,不明白请看前两篇文章。实际上Encoder 的落地实现需要几个入参,分别是vocab_size, embedding_units, encoding_units, batch_size。首先描述下这几个参数的物理意义及背后的思想是什么。原创 2024-06-13 11:29:34 · 1150 阅读 · 0 评论 -
机器学习LLM(2)--- 词向量化背后的逻辑及实现
今天补充了一点上一节分词的内容。还有一点时间,写下机器学习LLM中词语向量化的含义及为什么要这么做的思想以及实现的方式和如何在项目中落地,并分别以手动构建词向量与通过机器学习embedding layer 两种思维模式进行讲解。在上一节中,分词实现了对一个句子的数字编码,并透过tokenizer的序列化及tensorflow keras(只是一个例子,pytorch等一样有这个功能)的padding完成了batch模式下的句子对齐,为LLM分析奠定基础。原创 2024-06-12 13:39:23 · 459 阅读 · 0 评论 -
机器学习LLM(1)---分词的思想,实现,序列化及对齐
首先需要了解的是分词的思想,实现,序列化及对齐。为了机器学习可以学会人类语言,首先要做的事情是对人类语言进行分词与词语数字化编码。我们很容易想到索引来实现对一个句子中对所有词语进行编码,以实现该句子在该特定语言模型下的数字编码。 分词,对于英文,由于其语言特性,天然的被空格分开,所以Token 比较容易实现,Split 即为 空格。但对于中文,由于语言中没有空格,需要进行分词。庆幸的是,我们总是站在前人的肩上,对于中文的分词,已经有很多开源代码或组件可以使用,之后介绍下分词模型的序列化及对。原创 2024-06-11 15:53:41 · 502 阅读 · 0 评论