Word Mover Distance（WMD,词移距离)模型

最新推荐文章于 2022-12-22 22:21:05 发布

秦岭小和尚

最新推荐文章于 2022-12-22 22:21:05 发布

阅读量1.1k

点赞数 1

分类专栏： NLP 文章标签： nlp 人工智能

本文链接：https://blog.csdn.net/qinlingheshang/article/details/107406504

版权

文章介绍了Word Mover Distance（WMD）模型，它用于计算两个文本之间的距离，弥补了词袋模型和TF-IDF在处理词汇不重合时的不足。WMD基于词2vec，通过最小化词语在不同文档间移动的总距离来衡量语义相似度，同时通过约束条件避免了一对一转移可能导致的不合理结果。

摘要由CSDN通过智能技术生成

文本表示方式

词袋模型（BOW，bag od words)
词袋模型假设我们不考虑文本中词与词之间的上下文关系，仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。

举个例子，来说明词袋模型。假设语料库中只有两个句子。
Jane wants to go to Shenzhen.
Bob  wants to go to Shanghai.
分词后，将所有词语装进一个袋子里，不考虑词法和语序的问题，即每个词语都是独立的。上面两个句子，就可以构成一个词袋。
[Bob,go, Jane, Shanghai, Shenzhen, to, wants]
那么生面两个句子可以表示为：
[0,1,1,0,1,2,1]
[1,1,0,1,0,2,1]
这两个词频向量就是词袋模型，可以明显看出语序关系已经完全丢失。

TF-IDF
TF-IDF(x) = TF(x)*IDF(x)
其中：
TF（x）= ${N(x)\over N}$
IDF(x) = $lg{D\over D(x)}$

式中 N(x) 表示文本中词 x 出现的次数，N为文本中词的总数， 
D表示文档所在类的总文档个数， D(x) 表示词x在多少个文档中出现。
IDF反应了一个词在所有文本中出现的频率，如果一个词在很多的文本中出现，那么它的IDF值应该低，比如“的”这样的词在所有文档中都有出现，那么其IDF值为0.

根据上面两种方法，实现文本向量化之后，就可以使用cosin距离、欧式距离等法法度量文本之间的距离，但是上述两个文本表示方法有明显的缺点，即在两个句子没有相同词语时，这两个句子通过上述方式向量化表示之后，会被认定为完全不相关，但他们可能具有相同的语义。

Word2vec
google提出的word2vec能够将词语进行分布式表示，将词由one-hot的稀疏性编码方式转换为了稠密的编码方式。简单说就是将形如(0,0,0,1,0,0,…)的编码方式转变了形如(0.23,0.56,0.36,0.86,…)的编码方式。这样表示过后即便是两个不同的词语，也可以计算他们的相似度。
Word2Vec包含了两种词训练模型：CBOW模型和Skip-gram模型。