Word embedding算法

最新推荐文章于 2024-08-03 08:00:00 发布

dongfeig54321

最新推荐文章于 2024-08-03 08:00:00 发布

阅读量286

点赞数

文章标签：人工智能

原文链接：http://www.cnblogs.com/yinghuali/p/7477420.html

版权

Word embedding模型

计数模型是通过使用词共现矩阵把相似的词嵌入到同一个向量空间，通常先选择上下文环境，进行权重计算构建共现矩阵，随后运用相似度计算方法构建相似度矩阵，最后对矩阵进行分解，将每个词映射到一个较小维度的向量空间中，完成Word embedding模型的构建。

流程如下：

共现矩阵：

Ｃ（共现矩阵）的行向量是单词空间，列向量是上下文空间，Ｃ的行列元素
ｗｉｊ代表第ｉ个单词和第ｊ个上下文环境的关系，一般是单词ｉ在环境ｊ中出现的次数或者频率。

Ｃ的行向量是单词空间列向量是文档上下文空间，Ｃ的行列元素ｗｉｊ代表第ｉ个单词在第ｊ个文档中的共现权重，基于文档上下文共现矩阵。
如表１所示。

Ｃ的行向量是单词空间，列向量是窗口上下文空间，Ｃ的行列元素ｗｉｊ代表第ｉ个单词在第ｊ个单词前后ｎ个单词范围内的共现权重，表２是基于单词窗口的共现矩阵。

权重计算：

而权重一般用来衡量某个特征项在文档中的重要程度或者区分能力的强弱。

TF-IDF：

权重计算方法，用以评估一个字或一个词对一篇文档或一个语料库中的其中一篇文档的重要程度,字词的重要性随着它在文档中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降，公式定义为

PMI:

PMI这个指标来衡量２个事物之间的相关性(比如２个词)

词之间相似度计算：

转载于:https://www.cnblogs.com/yinghuali/p/7477420.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。