由One Hot 到 Embedding

最新推荐文章于 2024-06-05 19:55:01 发布

YJ语

最新推荐文章于 2024-06-05 19:55:01 发布

阅读量1.1k

点赞数

分类专栏： # 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/The_dream1/article/details/118101076

版权

深度学习专栏收录该内容

11 篇文章 2 订阅

订阅专栏

1 One-hot

One-hot 编码是一种最普通常见的表示离散数据的表示，首先我们计算出需要表示的离散或类别变量的总个数 N，然后对于每个变量，我们就可以用 N-1 个 0 和单个 1 组成的 vector 来表示每个类别。这样做有两个很明显的缺点：

对于具有非常多类型的类别变量，变换后的向量维数过于巨大，且过于稀疏。
映射之间完全独立，并不能表示出不同类别之间的关系。

因此，考虑到这两个问题，表示类别变量的理想解决方案则是我们是否可以通过较少的维度表示出每个类别，并且还可以一定的表现出不同类别变量之间的关系，这也就是 embedding 出现的目的。

2 neural network embedding ？

Embedding 是一个将离散变量转为连续向量表示的一个方式。

在神经网络中，embedding 是非常有用的，因为它不光可以减少离散变量的空间维数，同时还可以有意义的表示该变量。

Embedding 主要有以下优点：

在 embedding 空间中查找最近邻，这可以很好的用于根据用户的兴趣来进行推荐。
作为监督性学习任务的输入。
用于可视化不同离散变量之间的关系。

可能到这里大家还不理解——以下举一个例子：

我们可以在维基百科上获取到的所有 37,000 本书，

对于每一篇，仅仅用一个包含 50 个数字的向量表示这本书，

然后Neural Network Embedding。

对于Neural Network Embedding后的结果可以表示成一个包含 50 个数字的向量，对于37,000个向量可以使用余弦相似度表示一些书籍在某些角度是相似的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。