Datawhale-NLP入门-打卡3

第三次打卡的重点在fastText

fastText

在这里插入图片描述
本质上,fastText= word2vec中 CBOW + h-softmax的灵活使用

灵活体现在两个方面:

  • 模型的输出层:word2vec的输出层,对应的是每一个term,计算某term的概率最大;而fastText的输出层对应的是分类的label。不过不管输出层对应的是什么内容,起对应的vector都不会被保留和使用;
  • 模型的输入层:word2vec的输出层,是context window 内的term;而fastText 对应的整个sentence的内容,包括term,也包括n-gram的内容。

两者本质的不同,体现在 h-softmax的使用。

word2vec的目的是得到词向量,该词向量最终是在输入层得到,输出层对应的 h-softmax 也会生成一系列的向量,但最终都被抛弃,不会使用。
fastText则充分利用了h-softmax的分类功能,遍历分类树的所有叶节点,找到概率最大的label(一个或者N个)。

fastText优点:

  • 适合大型数据+高效的训练速度,能够训练模型“在使用标准多核CPU的情况下10分钟内处理超过10亿个词汇;
  • 支持多语言表达,利用其语言形态结构,fastText能够被设计用来支持包括英语、德语、西班牙语、法语以及捷克语等多种语言。FastText的性能要比时下流行的word2vec工具明显好上不少,也比其他目前最先进的词态词汇表征要好;
  • 专注于文本分类,在许多标准问题上实现当下最好的表现(例如文本倾向性分析或标签预测)。

附一个源码分析链接:fastText 源码分析

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值