关于Embedding

本文对Embedding和word embedding作一个简要的介绍。

Embedding的定义

Embedding是从离散对象(例如字词)到实数向量的映射。 这些向量中的各个维度通常没有固定含义,机器学习所利用的是向量的位置和相互之间的距离这些整体模式。

Embedding的应用

  1. 用作机器学习的输入。机器学习的很多重要输入(例如文本的字词)没有自然的向量表示,而分类器适用于实数向量。Embedding可将离散输入对象转换为有用连续向量。
  2. 用作机器学习的输出。使用Embedding将离散输入转化为有用的连续向量。根据向量空间中的相似性来衡量对象的相似性。常见用途如,找到最近邻的点。
  3. 将高维矢量映射到低维空间中,通过使用Embedding,可以让大型输入(比如代表字词的稀疏矢量)上进行机器学习变得更加容易。

Embedding多是作为一种工具来使用的,应用十分广泛。最常见的如机器学习中的分类聚类,以及推荐系统中的应用等。

如何Embedding?

以下是一些常见的Embedding的方法:

  1. One-Hot
  2. 分布式表示(Distributed Representation),如word2vec、LSA等
  3. 神经网络训练

Word Embedding的方法

Word Embedding即词嵌入,词嵌入是自然语言处理中语言模型与表征学习技术的统称。概念上而言,它是把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。word embedding在自然语言处理中的应用十分广泛,以下是其中一些较为常见的方法。

  1. One-Hot.
  2. word2vec.
  3. 神经网络.

以上仅为一些代表性的方法,可能还有未列举出来的。

参考资料

[1] https://www.zhihu.com/question/32275069
[2] https://www.tensorflow.org/guide/embedding
[3] https://en.wikipedia.org/wiki/Embedding
[4] https://developers.google.com/machine-learning/crash-course/embeddings/video-lecture
[5] https://github.com/WillKoehrsen/wikipedia-data-science
[6] https://towardsdatascience.com/neural-network-embeddings-explained-4d028e6f0526
[7] https://blog.csdn.net/itplus/article/details/37969519
[8] https://zh.wikipedia.org/wiki/词嵌入
[9] https://blog.csdn.net/baimafujinji/article/details/77836142

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值