大模型LLMs 部分常见面试题答案-进阶面

samoyan

已于 2023-10-30 19:17:04 修改

阅读量1.6k

点赞数 2

分类专栏： LLM 面试文章标签：人工智能自然语言处理深度学习

于 2023-10-30 17:48:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baoyan2015/article/details/134124584

版权

LLM 面试专栏收录该内容

43 篇文章

订阅专栏

题库来源：GitHub - km1994/LLMs_interview_notes: 该仓库主要记录大模型（LLMs）算法工程师相关的面试题

目录

什么是 LLMs 复读机问题？

为什么会出现 LLMs 复读机问题？

如何缓解 LLMs 复读机问题？

LLaMA 系列问题

LLaMA 输入句子长度理论上可以无限长吗？

什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？

1. 各个专业领域是否需要各自的大模型来服务？

1.1 专业领域的大模型

1.2 通用大模型的优势

2. 如何让大模型处理更长的文本？

2.1 增加模型的容量

2.2 使用注意力机制

2.3 使用滑动窗口或分块处理

2.4 使用长文本处理的专门技术

什么是 LLMs 复读机问题？

LLMs复读机问题是指大型语言模型在生成文本时出现的一种现象，即模型倾向于无限地复制输入的文本或者以过度频繁的方式重复相同的句子或短语。这种现象使得模型的输出缺乏多样性和创造性，给用户带来了不好的体验[^1^].

为什么会出现 LLMs 复读机问题？

复读机问题可能出现的原因包括数据偏差、训练目标的限制和缺乏多样性的训练数据。数据偏差指的是训练数据中存在大量的重复文本或者某些特定的句子或短语出现频率较高，模型在生成文本时可能会倾向于复制这些常见的模式。训练目标的限制是指大型语言模型的训练通常是基于自监督学习的方法，通过预测下一个词或掩盖词来学习语言模型。这样的训练目标可能使得模型更倾向于生成与输入相似的文本，导致复读机问题的出现。缺乏多样性的训练数据指的是训练数据中缺乏多样性的语言表达和语境，模型可能无法学习到足够的多样性和创造性，导致复读机问题的出现[^1^].

如何缓解 LLMs 复读机问题？

为了解决复读机问题，可以采取以下策略：多样性训练数据、引入噪声、温度参数调整和后处理和过滤。多样性训练数据指的是在训练阶段，尽量使用多样性的语料库来训练模型，避免数据偏差和重复文本的问题。引入噪声可以在生成文本时引入一些随机性或噪声，例如通过采样不同的词或短语，或者引入随机的变换操作，以增加生成文本的多样性。温度参数调整是通过调整温度参数的值，可以控制生成文本的独创性和多样性，从而减少复读机问题的出现。后处理和过滤是对生成的文本进行后处理和过滤，去除重复的句子或短语，以提高生成文本的质量和多样性[^1^].

LLaMA 系列问题

LLaMA 输入句子长度理论上可以无限长吗？

理论上，LLaMA 输入句子长度可以无限长，但未训练过的长度效果通常不好，因此接受2k的长度限制[^2^].

什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型，咋选？

选择使用Bert模型还是LLaMA、ChatGLM类大模型，主要取决于任务需求和资源限制。一般来说，如果任务需要深度理解和生成复杂的文本，且有足够的计算资源，可以选择使用LLaMA、ChatGLM类大模型。如果任务主要是文本分类或实体识别等，且计算资源有限，可以选择使用Bert模型。

1. 各个专业领域是否需要各自的大模型来服务？

1.1 专业领域的大模型

在某些情况下，专业领域可能需要各自的大模型。这是因为每个领域都有其特定的术语和知识结构，通用的大模型可能无法完全理解和处理这些领域特定的信息。例如，医学、法律、工程等领域都有其独特的术语和知识结构，如果使用通用的大模型，可能无法提供准确和深入的信息。因此，为这些领域开发专门的大模型可能是必要的。

1.2 通用大模型的优势

然而，通用的大模型也有其优势。首先，它们可以处理各种类型的查询，而不仅仅是特定领域的查询。其次，由于它们接受了大量和多样的训练数据，它们可能在处理未知或罕见查询时表现得更好。最后，通用的大模型可能更容易维护和更新，因为它们不需要针对每个领域进行特定的训练和优化。

2. 如何让大模型处理更长的文本？

2.1 增加模型的容量

一种方法是增加模型的容量，例如增加模型的层数或宽度。这可以使模型能够处理更长的文本序列。然而，这也会增加模型的计算需求和训练时间。

2.2 使用注意力机制

另一种方法是使用注意力机制，这可以使模型在处理长文本时更加高效。注意力机制允许模型在处理每个词时，都能考虑到其上下文中的其他词，这使得模型能够更好地理解长文本。

2.3 使用滑动窗口或分块处理

还可以使用滑动窗口或分块处理的方法来处理长文本。这种方法将长文本分成多个较短的段落，然后分别处理。这种方法的优点是可以处理非常长的文本，缺点是可能会丢失一些上下文信息。

2.4 使用长文本处理的专门技术

最后，也可以使用一些专门针对长文本处理的技术，如Transformer-XL、Compressive Transformer等。这些模型使用了一些特殊的技术，如缓存机制、自我回归等，以处理长文本。

以上内容主要基于对大模型和文本处理技术的理解，具体的实现可能会因模型和任务的不同而有所不同。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

samoyan 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。