[nlp] FastText 分类

本文介绍了FastText文本分类算法,它在保持高精度的同时提高了训练和测试速度,并且不需要预训练词向量。FastText模型架构类似于word2vec的CBOW,但用于预测标签,利用Hierarchical Softmax和N-gram进行优化。文章还简述了代码实现部分。
摘要由CSDN通过智能技术生成

FastText 分类

一、fastText简介

fastText是一个 快速文本分类 算法,与基于神经网络的分类算法相比的优点:
1、fastText 在保持高精度的情况下加快了训练速度和测试速度
2、fastText 不需要预训练好的词向量,fastText会自己训练词向量
3、fastText 两个重要的优化:Hierarchical Softmax、N-gram

二、fastText模型架构
fastText 模型架构和word2vec 中的CBOW 很相似, 不同之处是fastText 预测标签而CBOW 预测的是中间词,即模型架构类似但是模型的任务不同。下面我们先看一下CBOW的架构:
在这里插入图片描述
word2vec将上下文关系转化为多分类任务,进而训练逻辑回归模型,这里的类别数量|V|词库大小。通常的文本数据中,词库少则数万,多则百万,在训练中直接训练多分类逻辑回归并不现实。word2vec中提供了两种针对大规模多分类问题的优化手段, negative sampling 和hierarchical softmax。
在优化中,negative sampling 只更新少量负面类,从而减轻了计算量。hierarchical softmax 将词库表示成前缀树,从树根到叶子的路径可以表示为一系列二分类器,一次多分类计算的复杂度从|V|降低到了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

心心喵

喵喵(*^▽^*)

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值