fastText之我所见(一)
本系列blog重点介绍fasttext快速文本分类器的历史、原理以及实战等,主要有(一)(二)两个教程share给大家。教程(一)主要介绍fastTest,教程(二)主要从代码的角度来实战。
笔者信息:Next_Legend QQ:1219154092 人工智能 自然语言处理 图像处理 神经网络 高维信息处理
——2018.7.31于天津大学
一、What is fastTest?
FastText is an open-source, free, lightweight library that allows users to learn text representations and text classifiers. It works on standard, generic hardware. Models can later be reduced in size to even fit on mobile devices.
FastText是一个开源的、免费的、轻量级的库,允许用户学习文本表示和文本分类器。它适用于标准的通用硬件。模型可以在以后缩小,甚至可以在移动设备上使用。
fasttext是facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。
fastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子字(subword)信息,并通过隐藏表征在类别间共享信息。我们另外采用了一个softmax层级(利用了类别不均衡分布的优势)来加速运算过程。
该工具的作者有以下几位:</