24.深度学习之自然语言处理-fastText & GloVe

本文介绍了fastText和GloVe两种自然语言处理中的词向量模型。fastText利用子词嵌入捕获词汇内部结构,通过分层SoftMax提高计算效率。GloVe则基于全局词频统计构建词向量,通过平方损失函数优化模型,旨在捕捉词汇间的语义特性。
摘要由CSDN通过智能技术生成

24.1 fasttext

  • fasttext 是一个用于高效学习单词表示和句子分类的库
  • fasttext原理
    • Fasttext的3个特点:神经网络模型架构,分层SoftMax和N-gram子词特征
    • fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率
    • 序列中的词和词组组成特征向量,特征向量通过线性变换映射到中间层,中间层再映射到标签

24.1.1 子词嵌入(fastText)

  • 英语单词通常有其内部结构和形成方式。
    • 例如,可以从“dog”“dogs”和“dogcatcher”的字面上推测它们的关系。这些词都有同一个词根“dog”,但使用不同的后缀来改变词的含义。
  • 而且,这个关联可以推广至其他词汇。
    • 例如,“dog”和“dogs”的关系如同“cat”和“cats”的关系,“boy”和“boyfriend”的关系如同“girl”和“girlfriend”的关系。
  • 在word2vec中,并没有直接利用构词学中的信息。
    • 无论是在跳字模型还是连续词袋模型中,都将形态不同的单词用不同的向量来表示。
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值