广告行业中那些趣事系列44:NLP不可不学的FastText模型

导读:本文是“数据拾光者”专栏的第四十四篇文章,这个系列将介绍在广告行业中自然语言处理和推荐系统实践。本篇从理论到实践介绍了Facebook开源的FastText模型,对于想了解FastText模型并且应用到线上文本分类任务中的小伙伴可能有所帮助。

欢迎转载,转载请注明出处以及链接,更多关于自然语言处理、推荐系统优质内容请关注如下频道。

知乎专栏:数据拾光者

公众号:数据拾光者

f745a7c9edc13e1feecefd9a41a3d1a2.png

摘要:本篇从理论到实践介绍了Facebook开源的FastText模型。首先介绍了背景,由于工作需要对当前语音助手红线模型进行优化,而当前模型使用的是FastText模型;然后从理论方面重点介绍了FastText模型,主要用于词向量训练和文本分类任务中,因为速度快和不错的效果所以广泛应用在工业界。FastText模型结构简单,将词向量和n-gram特征作为模型输入,进行求和取平均即可得到语义向量特征,最后接一个softmax进行分类;最后从源码实践的角度介绍了FastText文本分类流程。对于想了解FastText模型并且应用到线上文本分类任务中的小伙伴可能有所帮助。

下面主要按照如下思维导图进行学习分享:

156e82fd78a00d928b8027c95cd80f73.png

01

背景介绍

还是按照老规矩介绍下背景,因为最近接手了语音助手红线项目,需要对用户违法涉政的服务请求进行过滤,从任务类型来看就是文本分类任务,目前线上模型主要使用的是FastText模型,所以需要详细了解下。当前语音助手红线模型具体方案如下图所示:

479b775a898510438b7cc9ce11df6dfc.png

图1 语音助手红线模型具体方案

如上图所示,用户请求会首先通过关键词匹配服务,根据不同的词表进行不同的处理。如果匹配到白名单词表,则直接通过请求;如果匹配到红线词表则直接进行拦截,这里红线词表主要是违法和涉政相关的;如果匹配到违法和涉政召回关键词,则会进入RedModel模型;其他用户请求还会同时进入RecallModel和GlobalModel两个模型,两者都是基于FastText模型构建的。RecallModel是一个分类任务,主要有违法、涉政和其他三类,主要用于召回红线数据。而GlobalModel则主要是识别一些辱骂、低俗等类别数据。如果RecallModel模型识别为违法和涉政的,则会和匹配到违法和涉政召回关键词的请求一起进入RedModel模型,这里两者是或的关系。RedModel是基于RoBerta模型构建的在线分类服务,当RedModel识别为红线数据则进行拦截,否则输出GlobalModel模型的分类结果并进行相应处理。这里RecallModel和GlobalModel使用FastText一个主要原因是用户请求量级超大,线上满足实时性要求,并且兼顾一定的模型效果。而RedModel使用RoBERTa模型主要原因是经过RecallModel之后量级已经很少了,需要更好的模型效果。本篇重点介绍FastText模型。

02

详解FastText

2.1 为什么要学习FastText

FastText是Facebook公司2016年开源的项目,主要用于构建词向量和文本分类FastText最大的优点是又快又好,因为本身结构非常简单,只有一层浅层网络,所以模型训练和线上预测的速度非常快,在普通的CPU上也能达到分钟级别的训练速度。不仅如此,在很多分类任务的标准数据集上模型效果也很不错。正因为速度非常快,并且模型效果还不错,所以在工业界应用范围很广。

2.2 FastText两个功能

FastText主要用于训练词向量和文本分类任务,下面会分别进行详细说明。

2.2.1 训练词向量

FastText一个主要功能是训练词向量,这和word2vec非常相似,有趣的是FastText的主要作者之一就是word2vec的作者,所以说它俩是一脉相承。相比于word2vec来说,FastText主要添加了subwords特性。这里详细介绍下subwords特性,subwords是字母粒度的n-gram。以英文举例,I love NLP。英文会根据空格进行分词,这里会切分成i、love和NLP三个词,词粒度的n-gram(这里假如n为2)则会得到i-love和love-NLP,对于单词love来说字母粒度的n-gram则可以得到l-o、o-v、v-e。字母粒度的n-gram特征可以很好的丰富词表示的层次,对于一些未知词可以根据字母粒度的n-gram特征进行更好的表示

2.2.2 文本分类

FastText还可以用于文本分类任务,模型结构和word2vec的CBOW非常相似:

a910d084fbcbf827f4c7683c886fcd9e.png

图2 FastText和Word2ve的CBOW模型结构图

从上图可以看出,FastText和word2vec的CBOW模型结构基本上是一样的,区别在于word2vec的CBOW模型是根据w3周围的w1、w2、w4和w5来预测w3,属于无监督学习模型,而FastText则根据整句的词w1-w5来预测标签,属于有监督学习任务。FastText将得到的词向量和其他特征相加后取均值作为句向量特征,然后接softmax层进行分类预测

如果只是将词向量特征相加后取均值作为句向量特征,则和其他词袋模型没啥区别,很难识别以下情况,比如两句话Wilson love Taylor和Taylor love Wilson通过词向量特征相加后取均值得到的句向量是完全一样的,但是语义可能完全不同。这时候需要加入语序特征的信息。FastText模型不仅会加入词向量特征,还会加入n-gram特征,下图是“Wilson love Taylor”这句话在FastText模型的输入特征图:

7afcc9728c5443e3946bc9c9e116ae67.png

图3 FastText模型输入特征图

如上图所示,FastText模型的输入主要包括两部分特征,第一块是词向量特征w1、w2和w3,第二块是n-gram特征w12和w23(这里n设置为2)。将这两部分特征相加之后取均值就得到这句话语义向量特征,也就是h=(w1+w2+w3+w12+w23)/5。拿到语义向量特征之后就可以通过softmax函数进行分类。因为n-gram特征量级远比词向量级大,所以不会全部存储n-gram特征,这里主要通过Hash桶的方式进行存储。将所有的n-gram特征分配到对应的Hash桶中,不仅可以使查询的效率为O(1),而且可以控制内存消耗,但是可能存在不同的n-gram特征分配到同一个桶中,引起hash冲突,但是当桶的数量设置较大可以有效降低hash冲突。

2.3 FastText优化项

FastText采用了word2vec的优化流程:基于层次的softmax和负采样。当文本分类的类别很多时通过层次的softmax可以有效提升模型的训练速度。关于层次的softmax和负采样流程感兴趣的小伙伴可以详细了解下,这也是我在参加校招面试中最喜欢问的问题。

小结下,FastText主要可以用于训练词向量和文本分类任务中,因为只有一层隐藏层,所以模型的训练和速度非常快,同时由于模型效果较好,所以广泛应用在工业界中。

03

源码实践FastText文本分类任务

上一节主要介绍了FastText的理论知识,下面则主要从源码实践的角度介绍FastText。因为我们的项目主要是用FastText进行文本分类任务,下面则主要介绍文本分类源码实践。

3.1 导入FastText包

通过pip导入FastText包:pip install fasttext。

这里分享个诀窍,之前经常用清华源导入python包,发现有些包没有或者导入速度很慢,最近使用豆瓣源很好用,推荐小伙伴使用下。

3.2 模型训练和存储流程

下面是FastText模型进行文本分类任务训练和存储的代码,训练函数train_supervised相关参数讲解已经添加在源码注释中了:

import fasttext.FastText as fasttext
classifier = fasttext.train_supervised(
   input=train_cut_path,   # 训练集文件路径,中文需要进行分词
   label="__label__",      #标签前缀
   lr=0.01,                # 学习率
   dim=300,                # 词向量维度
   ws=5,                   # 内容窗口大小
   epoch=5,                # 训练轮数
   loss="softmax",         # 使用的损失函数
   minCount=2,             # 最小词频数
   wordNgrams=4            # 词n-gram的长度
)
classifier.save_model(modelpath)

3.3 模型预测流程

下面是FastText模型预测源码,对于中文来说cut_text是经过分词的文本,k是topk概率的类别,设置为-1时返回所有类别。

predict_result =classifier.predict(cut_text, k=-1)

04

总结及反思

本篇从理论到实践介绍了Facebook开源的FastText模型。首先介绍了背景,由于工作需要对当前语音助手红线模型进行优化,而当前模型使用的是FastText模型;然后从理论方面重点介绍了FastText模型,主要用于词向量训练和文本分类任务中,因为速度快和不错的效果所以广泛应用在工业界。FastText模型结构简单,将词向量和n-gram特征作为模型输入,进行求和取平均即可得到语义向量特征,最后接一个softmax进行分类;最后从源码实践的角度介绍了FastText文本分类流程。对于想了解FastText模型并且应用到线上文本分类任务中的小伙伴可能有所帮助。

最新最全的文章请关注我的微信公众号或者知乎专栏:数据拾光者。

4aac73f5e8d585010a15a3fe43425dd6.png

码字不易,欢迎小伙伴们点赞和分享。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值