文本分类:短文本分类

应用场景:我们在和智能产品(如智能音箱,服务机器人,智能电话,车机,手机助手等)对话时。产生的一般都是口语化的短文本。那么如何对短文本进行分类来识别用户意图呢。下面介绍一下集中常用的文本分类技术

1.几种文本分类算法的对比
文本分类实质上是一种分类技术在文本领域的应用。时下最时髦的做法便是用神经网络,比如用CNN进行文本分类。据说会比传统机器学习算法的效果会好。但是训练神经网络需要充足的语料来训练,否则就会出现过拟合的通病。网络中的参数会和真实值相差甚远。因此,短文本如果用CNN这种网络显得有点杀鸡用牛刀的感觉。
在神经网络出现之前,svm(支持向量机)在分类方面称得上是独领风骚。它最重要的一个优点是在小样本训练集上的分类效果会比其他算法好很多。这者特点使它得到了广泛的应用。
2.textGrocery
TextGrocery是一个基于LibLinear和结巴分词的短文本分类工具,特点是高效易用,同时支持中文和英文语料。地址如下https://textgrocery.readthedocs.io/zh/latest/index.html。其中liblinear是libsvm的线性核的改进版本,专门适用于百万数据量的分类。是目前比较好的用于短文本分类的算法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值