词嵌入、word2vec

  • 词汇表使用one-hot编码,一个词在一列向量里只有一个位置是1,其他位置为0,缺点是浪费空间,而且看不出各个单词之间的关系。
  • 词嵌入用一个高维向量表示一个单词,意思相近的词的词嵌入比较接近,泛化能力强。
  • 高维空间不好表示,t-SNe算法可将高维空间映射为二维空间。apple与orange挨得较近。
  • 学习词嵌入通常会考察很大文本集,几十亿单词很常见。可以下载词嵌入矩阵,用于自己训练集很小的模型作为输入。
  • 通常只有自己训练集很大时,才会微调词嵌入矩阵。一般情况下,词嵌入不用调整。
  • 词嵌入的一个应用是类比推理,比如man对women,算法可以推知king对queen。余弦相似度函数被用于衡量两个向量的相似性。
  • 如果是学习语言模型,使用目标词前几个词作为上下文。如果是学习词嵌入,使用目标词邻近词作为上下文。
  • word2vec算法采用skip-Gram模型。随机选择某个词作为上下文词,然后选择上下文词附近单词作为目标词,来学习词嵌入。
  • word2vec主要难点是输出计算概率公式中分母的计算量过大。分级sorftmax和负采样被用来解决这个问题。
  • 实际上上下文词并不是随即均匀选择的,而是采用不同的分级来平衡不常见的词和常见的词。
  • word2vec还有一个连续词袋模型(CBOW),获得中间词两边的上下文,然后预测中间词。更适合小型语料库。

转载于:https://www.cnblogs.com/biwangwang/p/11440610.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值