十、词向量基础

1.计算机中如何表示一个词语

  • frog最接近的前7个单词有哪些
    在这里插入图片描述

1.1 向量空间分布的相似性

计算机中表示的词语需要满足向量空间分布的相似性,向量空间模型(VSM:Vector space model)是最常用的相似度计算模型,在自然语言处理中有着广泛的应用.
在这里插入图片描述

1.3 向量空间分布子结构

计算机中表示的词语同样需要满足向量空间子结构,学习的词向量模型最终目标是将词向量作为机器学习,特别是深度学习的输入和表示空间。
在这里插入图片描述

2. 词向量的概念及问题

2.1 词向量的概念

  • 在自然语言处理的任务中,词向量(word2vec)是表示自然语言中单词的一种方法,即把每个词都表示为一个N维空间内的点,即一个高维空间内的向量。通过这种方法,实现把自然语言转换为向量计算。
    在这里插入图片描述
  • 词向量表示时会有哪些问题?词的关系如何表示?
    • 不能分辨细节的差别
    • 需要大量的人为劳动
    • 主观
    • 无法发现新词
    • 难以精确计算词之间的相似度
      在这里插入图片描述
  • 实现词向量的两大挑战
    在这里插入图片描述

3 词向量的使用

3.1 词向量的查询

  • 自然语言是离散信号,比如“我”、“爱”、“人工智能。通常情况下,可以维护一个词向量查询表,实现单词转换为向量的目的,这个查询过程称之为Embeding Lookup。
    在这里插入图片描述

3.2 词向量的张量计算

  • 通过One-hot编码存储词向量的索引,并通过Embedding Matrix和GPU的张量计算获得单词的词向量表示:
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值