基于典型相关分析的词向量

本文介绍了词向量的两种形式:one-hot和分布式词向量,并详细阐述了基于典型相关分析(CCA)的词向量方法,旨在通过最大化上下文矩阵的协方差来捕获词与词之间的关联性。通过训练,找到最优的词向量嵌入矩阵,实现高效的语言表示。
摘要由CSDN通过智能技术生成

本文首发于雷锋网

前言

在NLP领域中,为了能表示人类的语言符号,一般会把这些符号转成一种数学向量形式以方便处理,我们把语言单词嵌入到向量空间中就叫词嵌入(word embedding)。

比如有比较流行的谷歌开源的 word2vec ,它能生成词向量,通过该词向量在一定程度上还可以用来度量词与词之间的相似性。word2vec采用的模型包含了连续词袋模型(CBOW)和Skip-Gram模型,并通过神经网络来训练。

但这篇文章不深入讲 word2vec 的内容,而是看看另外一种词向量生成方式——基于典型相关分析的词向量。

one-hot形式的词向量

说到词向量就必须先看词向量的形式,一般有两类,分别是 one-hot 形式和分布式形式。前面我们说过词向量就是用来表示人类语言的一种数学化的方式,最简单的向量方式即是one-hot形式。

它的处理方式简单粗暴,一般就是统计词库包含的所有V个词,然后将这V个词固定好顺序,然后每个词就可以用一个V维的稀疏向量来表示,向量中只有在该词出现的位置的元素才为1,其它元素全为0。比如下面这几个词,第一个元素为1的表示中国,第六个元素为1的表示美国,第五个元素为1的表示日本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

超人汪小建(seaboat)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值