零、引例
首先来看一个例子,下面有四句话,每一句话中都有“bank”这个单词:
1、Have you paid that money to the bank yet ?
2、It is safest to deposit your money in the bank .
3、The victim was found lying dead on the river bank .
4、They stood on the river bank to fish.
但“bank”在其前两句话中的意思是“银行”,在后两句话中的意思是“河畔”。
在做word embeding的时候,我们当然希望“bank”这一种token能够有两种embeding结果。
Q:那我们能不能标记一词多义的形式呢?
A:不太现实,首先是词很多,而且“bank”也不止有2种意思,下面这句话:The hospital has its own blood bank.这里“bank”有人认为是第三种意思“库”,也有人认为是“银行”的延伸意思,所以也难界定到底有几种意思。
此时我们需要根据上下文来计算对应单词的embedding结果,这种技术称之为Contextualized Word Embedding 。