BERT如何解决一词多义问题

最新推荐文章于 2024-05-25 09:20:33 发布

海晨威

最新推荐文章于 2024-05-25 09:20:33 发布

阅读量2.7k

点赞数 1

分类专栏：自然语言处理文章标签： bert 自然语言处理人工智能深度学习 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/songyunli1111/article/details/123167365

版权

BERT通过Self-Attention机制，结合上下文信息，使同一词在不同情境下获得不同embedding，从而实现一词多义的区分。尽管分类层固定，但由于不同上下文的embedding集中在特定区域内，BERT仍能有效区分词义。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

知乎上有一个这样的问题：

Bert 在pretrain的时候每个字的输出都是经过一个分类层后去预测自己由于分类层中的权重是固定的所以不管输入和中间的encoding有多么的复杂每个字最后的输出在训练过程一定是长得越来越像自己在分类层中对应的那个权重否则loss下不去

既然这样在不同句子里相同字的输出应该区趋于相同才对那又如何区别一字多义呢

问题参见：https://www.zhihu.com/question/332286187

我觉得这是一个很好的问题，需要想的很细才会考虑到「他们的最后的字表示应该都长的很像苹字在分类层里的权重那样softmax后才能有很高的概率」

简单凝练一下，楼主要问的问题就是：明明分类层是确定的，为什么BERT还是能区分一词多义？

首先，我们先分析后半句，BERT如何区分一词多义

BERT是如何区分一词多义的

BERT 的核心是 Self-Attention，而 Self-Attention 的核心是用文本中的其它词来增强目标词的语义表示。

在这里插入图片描述

对于一个句子，每经过一层 Self-Attention，每个词的 embedding 都会是这句话中所有词 embedding 的加权平均，也就会融合这句话中所有词的信息。

因此，对于同一个词，不同的上下文会让这个词融合不同的语义信息，使得同一个词在不同的上下文中有不同的embedding࿰

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

海晨威 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。