词的基本表示方式

词的基本表示方式

词的两种表示方式

One-hot representation

  • 将语料中的词汇去重之后的N个单词按照一定的顺序(字典序、出现顺序等)排列为长度为N的词汇表,则每一个单词都可以表示为一个长度为N的向量。该向量中,除了该词所在的分量为1,其余均为0。

例如,有语料库如下:
John likes to watch movies. Mary likes movies too.
John also likes to watch football games.
假设我们的词汇表排序结果如下:
{“John”: 1, “likes”: 2, “to”: 3, “watch”: 4, “movies”: 5, “also”:6, “football”: 7, “games”: 8, “Mary”: 9, “too”: 10}
那么则有如下word的向量表示:
John: [1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
likes: [0, 1, 0, 0, 0, 0, 0, 0, 0 ,0]

  • 缺点:
    • 向量的维度会随着句子的词的数量类型增大而增大;
    • 任意两个词之间都是孤立的,无法表示出词语词之间在语义层面上的相关性,这一点是致命的。

Distributed representation分布表示

  • 核心思想:选择一种方式描述上下文以及选择一种模型刻画某个词(下文称“目标词”)与其上下文之间的关系。
  • 分布表示包括基于矩阵的分布表示、基于聚类的分布表示和基于神经网络的分布表示。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值