【tensorflow2.0】32.词向量

    词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。
    生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示 单词出现的背景。
    当用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。
    在自然语言处理任务中,词在计算机中的表示方式通常有两种:ont-hot representation和distribution representation
ont-hot representation(离散表示)
    将每个词表示为一个向量,向量的维度是词表的大小,向量中只有一个维度的值为1,其余维度为0,这个维度就是我们要表示的词。例如:
在这里插入图片描述
这种方法在词表过大的时候会导致特征空间非常大,但是也有好处,就是在高维空间中,很多应用任务线性可分。
distribution representation(分布式表示)
    指的是将词转化成一种分布式表示,又称词向量。分布式表示将词表示成一个定长的连续的稠密向量。
分布式表示优点:
(1)词之间存在相似关系:是词之间存在“距离”概念,这对很多自然语言处理的任务非常有帮助。
(2)包含更多信息:词向量能够包含更多信息,并且每一维都有特定的含义。在采用one-hot特征时,可以对特征向量进行删减,词向量则不能。

分布式表示有以下这些方法:
• 矩阵分解(LSA):利用全局语料特征,但SVD求解计算复杂度大;
• 基于NNLM/RNNLM的词向量:词向量为副产物,存在效率不高等问题;
• word2vec、fastText:优化效率高,但是基于局部语料;
• glove:基于全局预料,结合了LSA和word2vec的优点;
• elmo、GPT、bert:动态特征;

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值