【无标题】基于Intel Extension for Transformers的智能聊天机器人配置与优化实验_intel-extension-for-transformers 加速gguf-CSDN博客

本文链接：https://blog.csdn.net/qq_60454505/article/details/139297466

技术介绍：

1. LLMs: Large Language Models

Large Language Models (LLMs) 是基于深度学习的模型，能够生成和理解自然语言。它们通常通过在大规模文本数据上训练数以亿计甚至数百亿个参数来捕获语言中的语法、语义和上下文信息。这些模型能够完成从文本生成、翻译到对话生成等多种自然语言处理任务。知名的LLMs包括OpenAI的GPT系列、Google的BERT和T5等。

2. Transformer

Transformer 是一种用于处理序列数据的深度学习模型，最初由Vaswani等人在2017年提出。与传统的RNN和LSTM不同，Transformer完全依赖于注意力机制来捕捉序列中的依赖关系，而不需要顺序处理数据。这使得Transformer在处理长距离依赖关系时非常高效。Transformer包含两个主要部分：编码器和解码器，编码器将输入序列转化为内部表示，解码器将这些表示转化为目标输出序列。

3. Embedding

Embedding 是一种将离散数据（如单词、字符）转换为连续向量空间表示的方法。通过Embedding层，模型可以将高维稀疏的输入数据映射到低维稠密的向量，这些向量在语义空间中更容易处理。Word2Vec、GloVe和BERT的词嵌入都是常见的Embedding方法。Embedding不仅能捕捉单词之间的语义关系，还能显著减少计算复杂度。

4. Positional Encoding

Positional Encoding 是Transformer模型中用于引入序列位置信息的一种方法。由于Transformer不具备处理序列数据的内在顺序结构（不像RNN），需要通过Positional Encoding将位置信息编码到输入向量中。常见的Positional Encoding方法是通过正弦和余弦函数生成一组固定的位置编码，然后将其加到输入的词嵌入向量中。这些编码帮助模型识别序列中单词的位置及其相对关系。

5. Self-Attention

Self-Attention（自注意力）机制是Transformer的核心组件，它允许每个输入元素根据其他元素的相关性来重新表示自己。通过计算输入序列中每个元素与其他所有元素之间的注意力权重，Self-Attention机制能够捕捉序列中远程依赖关系。具体而言，Self-Attention计算三个向量：Query、Key和Value，然后通过这些向量计算注意力得分和加权和。这一过程可以并行处理，从而提高计算效率。