注意力机制中，大模型是如何确定输入中的哪些信息是关键信息并记录到上下文中

chunmiao3032

于 2023-11-07 14:38:31 发布

阅读量181

点赞数

分类专栏： LLM 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chunmiao3032/article/details/134266909

版权

LLM 专栏收录该内容

10 篇文章

订阅专栏

在注意力机制中，确认哪些信息是关键信息通常需要依赖于模型的训练。模型在学习期间会根据输入和输出的关系，自动学习到如何分配注意力。换句话说，它会学习到在处理特定任务时，对哪些信息赋予更大的重视。

例如，对于机器翻译任务，模型可能学会在翻译一个长句子时，将更多的注意力集中在句子中的主语或动词上，因为这些词通常包含了句子的主要信息。

更具体的说，这个过程是通过一些数学计算实现的。就像我们人类在读一段文字时，自然而然会对一些词语、句子给予更多的关注，机器学习模型也会通过计算每个部分的"重要性分数"，来确定哪些部分应该被赋予更多的注意力。这个重要性分数非常依赖于模型的训练数据和任务。计算出这些分数之后，模型就可以根据这些分数来生成上下文向量，包含了最重要的信息。

然而，这个过程并非完全确定的，不同的模型、不同的任务，甚至是对同一任务的不同训练，都可能导致模型关注的信息有所不同。这也是机器学习研究中的一个重要问题，即如何确保模型能够准确地捕捉到关键信息。

目录

分类专栏

LLM 10篇
k8s 5篇
转载 1篇
网络基础 2篇
C# 2篇
java

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。