Word Mover Distance(WMD,词移距离)模型

文章介绍了Word Mover Distance(WMD)模型,它用于计算两个文本之间的距离,弥补了词袋模型和TF-IDF在处理词汇不重合时的不足。WMD基于词2vec,通过最小化词语在不同文档间移动的总距离来衡量语义相似度,同时通过约束条件避免了一对一转移可能导致的不合理结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文本表示方式

  1. 词袋模型(BOW,bag od words)
    词袋模型假设我们不考虑文本中词与词之间的上下文关系,仅仅只考虑所有词的权重。而权重与词在文本中出现的频率有关。
举个例子,来说明词袋模型。假设语料库中只有两个句子。
Jane wants to go to Shenzhen.
Bob  wants to go to Shanghai.
分词后,将所有词语装进一个袋子里,不考虑词法和语序的问题,即每个词语都是独立的。上面两个句子,就可以构成一个词袋。
[Bob,go, Jane, Shanghai, Shenzhen, to, wants]
那么生面两个句子可以表示为:
[0,1,1,0,1,2,1]
[1,1,0,1,0,2,1]
这两个词频向量就是词袋模型,可以明显看出语序关系已经完全丢失。
  1. TF-IDF
    TF-IDF(x) = TF(x)*IDF(x)
    其中:
    TF(x)= N ( x ) N {N(x)\over N} NN(x)
    IDF(x) = l g D D ( x ) lg{D\over D(x)} lgD(x)D
式中 N(x) 表示文本中词 x 出现的次数,N为文本中词的总数, 
D表示文档所在类的总文档个数, D(x) 表示词x在多少个文档中出现。
IDF反应了一个词在所有文本中出现的频率,如果一个词在很多的文本中出现,那么它的IDF值应该低,比如“的”这样的词在所有文档中都有出现,那么其IDF值为0.

根据上面两种方法,实现文本向量化之后,就可以使用cosin距离、欧式距离等法法度量文本之间的距离,但是上述两个文本表示方法有明显的缺点,即在两个句子没有相同词语时,这两个句子通过上述方式向量化表示之后,会被认定为完全不相关,但他们可能具有相同的语义。

  1. Word2vec
    google提出的word2vec能够将词语进行分布式表示,将词由one-hot的稀疏性编码方式转换为了稠密的编码方式。简单说就是将形如(0,0,0,1,0,0,…)的编码方式转变了形如(0.23,0.56,0.36,0.86,…)的编码方式。这样表示过后即便是两个不同的词语,也可以计算他们的相似度。
    Word2Vec包含了两种词训练模型:CBOW模型和Skip-gram模型。

CBOW模型根据中心词W(t)周围的词来预测中心词
Skip-gram模型则根据中心词W(t)来预测周围词

CBOW的一般情形
CBOW模型结构图

1. 输入层:上下文单词的
出现这个错误的原因是在导入seaborn包时,无法从typing模块中导入名为'Protocol'的对象。 解决这个问题的方法有以下几种: 1. 检查你的Python版本是否符合seaborn包的要求,如果不符合,尝试更新Python版本。 2. 检查你的环境中是否安装了typing_extensions包,如果没有安装,可以使用以下命令安装:pip install typing_extensions。 3. 如果你使用的是Python 3.8版本以下的版本,你可以尝试使用typing_extensions包来代替typing模块来解决该问题。 4. 检查你的代码是否正确导入了seaborn包,并且没有其他导入错误。 5. 如果以上方法都无法解决问题,可以尝试在你的代码中使用其他的可替代包或者更新seaborn包的版本来解决该问题。 总结: 出现ImportError: cannot import name 'Protocol' from 'typing'错误的原因可能是由于Python版本不兼容、缺少typing_extensions包或者导入错误等原因造成的。可以根据具体情况尝试上述方法来解决该问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [ImportError: cannot import name ‘Literal‘ from ‘typing‘ (D:\Anaconda\envs\tensorflow\lib\typing....](https://blog.csdn.net/yuhaix/article/details/124528628)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值