机器学习第六篇----FastText实践

本文介绍了如何在对话机器人项目中应用FastText。由于FastText在保持高精度的同时提高了训练和测试速度,并且能自训练词向量,因此被选中。文章涉及FastText的安装、中文分词、数据标注、模型训练和预测过程。
摘要由CSDN通过智能技术生成

最近在做对话机器人,使用了调研之后使用了fasttext,主要考虑对话机器人主要是短文本,而且与基于神经网络的文本分类算法相比它主要由两个优点
(1)首先FastText在保持高精度的同时极大地加快了训练速度和测试速度。
(2)再有就是不需要使用预先训练好的词向量,因为FastText会自己训练词向量

1.fasttext 安装:

pip install fasttext

2.fasttext 使用过程:
(1)中文对话不同于英文,英文的单词之间有空格,天然的分词。但是中文就不同,需要首先分词(这里不展开分词,后面写个专题吧)

# 使用的hanlp分词,去掉停用词(具体参考pyhanlp的用法)
NotionalTokenizer = JClass("com.hankcs.hanlp.tokenizer.NotionalTokenizer")
words = NotionalTokenizer.segment(text)

(2)fasttext 数据标注,fasttext 分类属于有监督学习(word2vec属于无监督学习),有监督学习首先需要进行文本标注


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值