java训练 词向量_浅谈自然语言处理中的词向量

文/晗灵

1.词向量是什么

正如下图所示:语谱图带有语音信号丰富的特征;图片天然的矩阵密集表示直接可供计算机理解;词向量的意义正在于,将计算机不可直接理解的文字信息表示为可理解的数字向量,并内蕴文字本身的语法语义信息。accb5410e005b72089286b7a8a50b864.png

2.词向量怎么做

通常来说,可以分为离散化以及分布式两个大类。

2.1.离散化表式

one-hot representation,独热表示,又称一位有效表示,其方法是使用N位状态寄存器来对N个有效值进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效,设置为1,其余置0。它有着易于理解易于生成等有点。相对的,所带来的维度灾难以及各向量两两正交,不保留任何语法语义信息,也使得该方法逐渐被取代。

举个栗子:有如下文本: I

like deep learning.I like NLP. I enjoy flying.

首先生成词表{I,like,deep,learning,NLP,enjoy,flying}

继而每个词的表示如下:I = [1,0,0,0,0,0,0]; like = [0,1,0,0,0,0,0] ...

2.2.分布式表式

离散化表示丢弃了文本的语义信息,使得语义理解的任务在一段时间内处于停滞不前的阶段。分布式表示的大类方法,期望将语义信息融入到向量编码,作出了一系列的尝

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值