词向量

词表示在自然语言处理任务中,首先需要考虑词如何在计算机中表示。通常,有两种表示方式:one-hotrepresentation(离散表示)和distributionrepresentation(分布式表示)

分布式表示:即通过共现矩阵的方式来进行词的表示,词的意义来源于其在语料中的分布。

离散式表示:即将语言表示为稠密、低维、连续的向量,每个词被表示为“a patternof activation”值构成的向量,词的意义以及与其他词之间的关系通过向量中的激活值和向量之间的相似性来反映。

分布式表示

分布式表示使用word-context矩阵来捕捉词的分布式特性,表示为 M,其元素表示一个词和一个 context 之间的信息强度,通常用 PMI 计算,从而,词向量可以用矩阵M的行来表示。

分布式表示优点:

(1) 词之间存在相似关系:

词之间存在“距离“概念,这对很多自然语言处理的任务非常有帮助

(2) 包含更多信息:

词向量能够包含更多信息,并且每一维都有特定的含义

离散式表示

离散式表示中,词的含义不仅蕴含在整个词向量的所有维度里,还蕴含在其他词向量的维度中,即离散表示的向量维度是不可解释的,特定维并不对应特定概念。one-hot representation把每个词表示为一个长向量。这个向量的维度是词表大小,向量中只有一个维度的值为1,其余维度为0,这个维度就代表了当前的词。

例如:

书[0,0,1,0,0,0…]

one-hot representation相当于给每个词分配一个id,这个id中只有一个位置的数字是1,其余都是0,但是这种表示方式不能展示词与词之间

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值