向量距离计算 java_Word Embedding 和词向量

本文介绍了Word Embedding的概念,将词从不可计算的文本形式转换为可计算的向量表示。重点讲解了一维的One-hot表示和Distributed表示,后者通过词的上下文信息构建词向量,克服了One-hot表示的维数灾难和表征能力差的问题。此外,还讨论了词向量在计算相似度、识别与众不同词汇和进行词的运算等方面的应用。
摘要由CSDN通过智能技术生成

db406c82fd9f8bbcc6773a5a77a64d88.png

一、Word Embedding

在NLP任务中,我们将自然语言交给算法来处理,但计算机无法直接理解人类的语言,因此首先要做的是事情就是将语言数学化,即将文本数据转换为数值型数据,由此引出 Word Embedding 的概念。

如果将 Word 看成文本的最小单元,可以将词嵌入 (Word Embedding) 理解为一种映射,其过程是:将文本空间中的某个 Word,通过一定的方法,映射到(或者说嵌入 embedding)到一个数值空间, Word 在数值空间的表示即 word representation。

如果该数值空间是一个向量空间,每个 Word 对应一个一维向量,那么这个一维向量被称为词向量。

Word embedding 将「不可计算」「非结构化」的词转化为「可计算」「结构化」的向量。这一步解决的是”将现实问题转化为数学问题“,是人工智能非常关键的一步。

注意:词向量只是针对“词”来提的,事实上,我们也可以针对更细粒度或更粗粒度来进行推广,如字向量,句子向量和文档向量, 它们能为字、句子、文档等单元提供更好的表示。

二、词向量

如何将词映射为向量?

(1)One-hot 表示

最简单的一种词向量是 one-h

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值