fasttext ---强大的文本分类

最近接触到自然语言处理,需要对网上新闻进行文本分类,所以入坑fasttext。 之前用过CNN网络写过文本分类,直到本渣接触到了fasttext,才发现,人生苦短,我要快!

 

这篇文章是转载自 https://blog.csdn.net/weixin_36604953/article/details/78324834 这个江户川大神@夏洛克江户川,文章通俗易懂 

 

 

 

文本分类需要CNN?No!fastText完美解决你的需求(后篇)

想必通过前一篇的介绍,各位小主已经对word2vec以及CBOW和Skip-gram有了比较清晰的了解。在这一篇中,小编带大家走进业内最新潮的文本分类算法,也就是fastText分类器。fastText与word2vec的提出者之所以会想到用fastText取代CNN(卷积神经网络)等深度学习模型,目的是为了在大数据情况下提高运算速度。 
其实,文本的学习与图像的学习是不同的。学习不同,一般情况下,文本学习并不需要过多隐藏层、过复杂的神经网络,为什么这么说呢?打个比方,有这样一句话:“柯南是个聪明的帅哥”,如果让你去学习理解这句话,听上二三十次次与听上两三次相比,对于这句话的理解可能也没有什么提升,就模型而言,不需要过复杂的神经网络就可以很好的对这句话进行学习,然而图像不同,如果让你临摹一个大师的化作,你第一次临摹可能是个四不像,但第一万次临摹,可能就会以假乱真了。所以,用简单的网络对自然语言进行学习,可以快速、高质量的得到结果。正因如此,才有了fastText算法。 
言归正传,我们开始fastText算法的深入了解,这篇文章主要从三个方面来介绍算法:模型架构、分层softmax、n-gram特征。在算法原理介绍完毕后,同上一篇文章一样,会带领各位小主实现fastText算法的应用,迫不及待了吧?

预备知识

为了更好的理解fastText,我们先来了解一些预备知识。第一个是BoW模型,也叫做词袋模型。BoW模型(Bag of words)应用于自然语言处理、信息检索和图像分类

没有更多推荐了,返回首页