范涛
发表于2017-04-06
FastText github路径:
https://github.com/facebookresearch/fastText
参考文献:
前言
Facebook 在2016年第一次对外公开FastText算法时候,应该是引起很大一番讨论,因为论文提到他以更快的速度达到和DNN类似的效果。这里不再争论这点。当时吸引我一点的是他在大规模数据集上的扩展性和速度上都很棒,因为这两点十分适合工业界应用。当时正好在做query意图识别相关的任务,语料也是几百万。最开始拿的是Navie Bayies做baseline,Navie Bayies这种生成模型在大语料下不仅训练耗时,关键让人失望的是,预测速度变得也不那么快。基于当时的现状,我觉得我可以接受些许准确率损失,来换来模型训练和预测时效性得显著提高。这个时候,我直接拿FastText来进行query 意图识别。结果FastText的效果果然没让我失望,训练耗时从之前几个小时到现在的几分钟,预测速度那叫一个快啊。更让我惊喜的是,准确性上一点也不差,有些场景比NB还好。
FastText 重点解析
FasText中分类模型示意图: