了解fasttext工具的作用
了解fasttext工具的优势及其原因
掌握fasttext的安装方法
1、认识fasttext工具
1.1、作用:
进行文本分类
训练词向量
1.2、工具包优势
正如它的名字,在保持较高精度的情况下,快速的进行训练和预测是fasttext的最大优势。
1.3、fasttext优势的原因
fasttext工具包中内涵的fasttext模型具有十分简单的网络结构
使用fasttext模型训练词向量时使用层次softmax结构,来提升超多类别下的模型性能
由于fasttext模型过于简单无法捕捉词序特征,因此会进行n-gram特征提取以弥补模型缺陷提升精度
2、进行文本分类
2.1、什么是文本分类
文本分类是将文档(电子邮件、帖子、文本消息、产品评论等)分配给一个或多个类别。当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类,因此构建文本分类器需要带标签的数据
2.2、文本分类的种类
二分类:文本被分类两个类别中,往往这两个类别是对立面,比如判断一句评论是 好评还是差评
单标签多分类:文本被分入到多个类别中,且每条文本只能属于某个类别(即被打上某一个标签),比如输入一个人名,判断它是来自哪个国家的人名。
多标签多分类:文本被分人到多个类别中,但每条文本可以属于多个类别(即被打上多个标签)比如输入一段描述,判断可能是和哪些兴趣爱好有关,一段描述中可能即讨论了美食,又讨论了游戏爱好。
2.3、使用fasttext工具进行文本分类的过程
1、获取数据
2、训练集与验证集的划分
3、训练模型
4、使用模型进行预测并评估
5、模型调优
6、模型保持与重加载