20240708 LLM

AI-lala

已于 2024-07-16 18:54:21 修改

阅读量938

点赞数 10

文章标签：人工智能

于 2024-07-08 16:24:02 首次发布

本文链接：https://blog.csdn.net/GAOSHIQI5322688/article/details/140271707

版权

一.参考网站

GitHub - BradyFU/Awesome-Multimodal-Large-Language-Models: :sparkles::sparkles:Latest Advances on Multimodal Large Language Models

GitHub - LlamaFamily/Llama-Chinese: Llama中文社区，Llama3在线体验和微调模型已开放，实时汇总最新Llama3学习资料，已将所有代码更新适配Llama3，构建最好的中文Llama大模型，完全开源可商用

大模型系统学习：llm-course，狂飙13.5K Star，GitHub上最全的开源大模型教程 - 知乎

LLM/ChatGPT与多模态必读论文150篇(已更至第101篇)_chatgpt相关论文-CSDN博客

评测：AI 大模型排行榜，正式发布！

大模型大全

https://github.com/hiyouga/LLaMA-Factory

二.LLaMA

LLaMA模型（Large Language Model by Alibaba）训练时的数据结构主要基于Transformer架构，其训练数据是大规模的文本序列数据。具体训练过程可以概括如下：

数据预处理：
- 训练数据通常包括大量的文本序列，这些文本可能来源于公开的互联网文本、书籍、新闻、对话等多种来源。
- 文本经过清理，去除无关信息，进行必要的文本规范化处理（如大小写转换、标点符号处理等）。
- 如果是字符级模型，文本会被拆分为字符序列；如果是基于词的模型，则需进行分词处理。
序列化输入：
- 经过预处理的文本序列被转化为适合Transformer模型处理的形式，即一个包含多个tokens（词或字符）的序列。
- 为了包含位置信息，每个token会被附加一个位置编码（Positional Encoding）。
模型结构：
- LLaMA模型采用了Transformer架构，该架构由多层自注意力机制（Self-Attention）构成的编码器和（或）解码器堆叠而成。
- 对于自回归模型（如GPT系列），模型通常只包含解码器部分，训练时基于历史序列预测下一个token。
- 对于双向模型（如BERT系列），模型包含编码器部分，允许模型同时考虑上下文的前后信息。
训练目标：
- 训练目标是最大化模型在给定输入序列后生成正确token序列的概率，通常采用最大似然估计（MLE）或自注意力下的交叉熵损失函数进行优化。
训练过程：
- 利用大规模GPU集群进行分布式训练，训练数据按批次输入模型，每批次包含多个序列样本。
- 通过反向传播算法更新模型参数，优化损失函数，使得模型在处理各类自然语言任务时具备更强的泛化能力。
训练策略：
- 在训练过程中，可能采用学习率衰减、权重衰减、梯度裁剪、混合精度训练等多种优化策略，以提高模型训练效率和性能。

LLaMA模型通过上述数据结构和训练过程，学习到丰富的语言结构和语义知识，进而能在各种自然语言处理任务中表现出色。

二.GPT

一文读懂ChatGPT模型原理 - 知乎

LLaVa原理及在线演示 - 知乎

AI绘画能力的起源：从VAE、扩散模型DDPM、DETR到ViT/Swin transformer_vq-vae多模态-CSDN博客

从文本创建艺术，AI图像生成器的数据集是如何构建的_整数智能AI研究院的博客-CSDN博客

GPT搭建使用

MiniGPT-4实现原理及其核心BLIP2模型实践：从代表性图文对数据集、BLIP2模型结构到调用实践

GitHub - modelscope/modelscope: ModelScope: bring the notion of Model-as-a-Service to life.

图像生成和图像解释

GitHub - lucidrains/DALLE2-pytorch: Implementation of DALL-E 2, OpenAI's updated text-to-image synthesis neural network, in Pytorch AIGC技术与应用全解析_cn--萍诚1号的博客-CSDN博客

技术点：

在自然语言处理（NLP）中，直接提到“单针检索”和“多针检索”的概念并不常见。但如果将这两个概念借用到NLP的场景中，可以进行如下类比解释：

单针检索：
- 类似比喻：可以理解为一种精确的、目标导向的信息检索或抽取方法，重点在于对单一信息源或线索进行深入挖掘，力求精确定位到所需信息。
- 实际应用举例：在一个简短的上下文中，或者在特定的文本区域，模型集中注意力去寻找和匹配某一特定信息点，如在问答系统中寻找最相关的问题答案。
多针检索：
- 类似比喻：可以看作是从多个维度、多个信息源或线索同时进行信息检索和综合分析的过程，覆盖范围更广，可能会涉及多个上下文或多个潜在信息片段的并行处理。
- 实际应用举例：在处理较大文本或复杂情境时，模型可能需要对多个相关段落或多种信息线索进行并发处理，例如在检索式问答系统中，模型不仅查看一个问题的直接上下文，还可能遍历整个文档库，通过多轮或分布式检索来聚合不同部分的相关信息。

在实际NLP技术中，这可能对应于不同的处理策略，如：

单针检索可能对应于具有精确注意力机制的模型，能够在一个较短上下文中迅速锁定目标信息。
多针检索可能代表一种多路并行或层次化的信息检索策略，比如使用多头注意力（Multi-Head Attention）机制的Transformer模型，可以从不同角度同时捕获文本中的多重信息线索。

请注意，以上解释是基于对“单针检索”和“多针检索”进行的创造性类比，并非NLP领域的标准术语。在具体的NLP技术文献或应用场景中，可能有不同的对应技术和实现方法。

在自然语言处理（NLP）领域，Masked Sequence Packing 是一种将多个短序列打包在一起形成一个较长序列的技术，特别适用于训练像BERT（Bidirectional Encoder Representations from Transformers）这样的预训练模型，以及那些采用Masked Language Modeling（MLM）任务的模型。

Masked Sequence Packing 的主要作用：

提高训练效率：通过将多个短序列拼接成一个序列，模型可以在一个前向传播过程中处理更多的有效信息，从而在同样的计算资源下，提升训练数据的利用率。
学习长距离依赖：尽管单个序列的长度有限制，但是通过序列打包，模型有机会在同一个训练样本中学习跨越多个短序列的上下文依赖关系，增强了模型处理长文本的能力。
节省显存：相比于为每个短序列单独创建一个batch，序列打包可以减少内存开销，特别是在处理GPU等硬件资源有限的情况下，这种方法尤为重要。

具体做法是，首先选取若干个较短的文本序列，然后在这些序列之间插入特殊的分隔符标记（例如 [SEP] 或者 [MASK]），并将部分词语替换为 [MASK] 标记进行遮蔽，模型在训练时需要根据上下文预测出被遮蔽的词。这样，模型就可以在一个较大的上下文范围内进行学习，同时解决了处理长序列的问题。在BERT等模型中，这种技术是预训练期间用来学习通用语言表示的重要组成部分。

AI-lala

关注

10
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
20240708 LLM

在自然语言处理（NLP）领域，Masked Sequence Packing 是一种将多个短序列打包在一起形成一个较长序列的技术，特别适用于训练像BERT（Bidirectional Encoder Representations from Transformers）这样的预训练模型，以及那些采用Masked Language Modeling（MLM）任务的模型。提高训练效率：通过将多个短序列拼接成一个序列，模型可以在一个前向传播过程中处理更多的有效信息，从而在同样的计算资源下，提升训练数据的利用率。
复制链接

扫一扫