向量距离计算 java_Word Embedding 和词向量

最新推荐文章于 2024-06-21 13:47:19 发布

weixin_39524147

最新推荐文章于 2024-06-21 13:47:19 发布

阅读量554

点赞数

文章标签：向量距离计算 java

本文介绍了Word Embedding的概念，将词从不可计算的文本形式转换为可计算的向量表示。重点讲解了一维的One-hot表示和Distributed表示，后者通过词的上下文信息构建词向量，克服了One-hot表示的维数灾难和表征能力差的问题。此外，还讨论了词向量在计算相似度、识别与众不同词汇和进行词的运算等方面的应用。

摘要由CSDN通过智能技术生成

一、Word Embedding

在NLP任务中，我们将自然语言交给算法来处理，但计算机无法直接理解人类的语言，因此首先要做的是事情就是将语言数学化，即将文本数据转换为数值型数据，由此引出 Word Embedding 的概念。

如果将 Word 看成文本的最小单元，可以将词嵌入 (Word Embedding) 理解为一种映射，其过程是：将文本空间中的某个 Word，通过一定的方法，映射到（或者说嵌入 embedding）到一个数值空间， Word 在数值空间的表示即 word representation。

如果该数值空间是一个向量空间，每个 Word 对应一个一维向量，那么这个一维向量被称为词向量。

Word embedding 将「不可计算」「非结构化」的词转化为「可计算」「结构化」的向量。这一步解决的是”将现实问题转化为数学问题“，是人工智能非常关键的一步。

注意：词向量只是针对“词”来提的，事实上，我们也可以针对更细粒度或更粗粒度来进行推广，如字向量,句子向量和文档向量，它们能为字、句子、文档等单元提供更好的表示。

二、词向量

如何将词映射为向量？

（1）One-hot 表示

最简单的一种词向量是 one-h

最低0.47元/天解锁文章

weixin_39524147

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
向量距离计算 java_Word Embedding 和词向量

一、Word Embedding在NLP任务中，我们将自然语言交给算法来处理，但计算机无法直接理解人类的语言，因此首先要做的是事情就是将语言数学化，即将文本数据转换为数值型数据，由此引出 Word Embedding 的概念。如果将 Word 看成文本的最小单元，可以将词嵌入 (Word Embedding) 理解为一种映射，其过程是：将文本空间中的某个 Word，通过一定的方法，映射到（或者说嵌...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。