14、【李宏毅机器学习（2017）】Unsupervised Learning: Word Embedding（无监督学习：词嵌入）

最新推荐文章于 2021-08-05 13:31:25 发布

Jimmyzqb

最新推荐文章于 2021-08-05 13:31:25 发布

阅读量3.8k

点赞数 1

分类专栏：李宏毅机器学习(2017) 笔记文章标签：机器学习无监督学习词嵌入

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jimmyzqb/article/details/82180871

版权

本文深入探讨无监督学习中的词嵌入方法，通过介绍Word Embedding的基本思想和利用上下文的Count based与Perdition based策略，揭示如何将词汇转换为向量表示，以捕捉词汇间的语义关系。

摘要由CSDN通过智能技术生成

上一篇博客介绍了无监督学习中的线性降维方法，本篇博客将继续介绍无监督学习在文字中的降维方法——Word Embedding。

目录

Word Embedding
- Word Embedding介绍
- 利用上下文
  - Count based
  - Perdition based

Word Embedding

Word Embedding介绍

Word Embedding希望通过训练大量的材料（结合上下文关系），将词汇描述成一个向量。

一种最简单的词汇描述成向量的方法就是1-of-N Encoding方法，假设现在世界上只有下面5个单词，则可以使用5维的向量分别表示一个词汇，但是这种方法不能描述向量之间的关系
因此在此基础上进行词汇归类
但是直接归类的方法很粗糙，所以进一步提出了Word Embedding方法，每一个词汇用多个维度描述

这里写图片描述

$\quad$

利用上下文

利用上下文来推断词汇的关系有两种主要的思路——Count based和Perdition based。

Count based

Count based寻找词汇向量 $V(\cdot )$ 的思路就是如果 wi,w

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。