支持向量机文本分类python_TextGrocery,更好用的文本分类Python库

古龙说,无论什么东西,最好的都只有一种。经历半年的文本分类实践,我们基本已断定,最好的文本分类算法就是SVM -- 支持向量机。

但是纵然知道了天机,新手做文本分类仍然需要学习不少东西,例如算法原理、分词、向量化等等。如果用上scikit-learn这样的庞然大物,更有种高射炮打蚊子的异样感。

有没有可能把最好的文本分类算法,包装成一个超级简单的工具提供给大家?

这是我开发TextGrocery的初衷。

设计原则

幸好,我不是没有参照系。LibShortText打下了一个很好的基础,不仅提供了足够简单的API,而且背后的原理也有扎实的实验数据支撑(不过滤停用词,不过滤词性,使用线性核)。当然,LibShortText也有显著的缺陷:

不支持中文分词,这导致其在中文语料上的表现一塌糊涂

Analyzer模块不仅多余,而且输出全部为无格式文本,不可爱

如果不是专业的算法人员,默认参数永远是最好的选择,所以参数的自定义并不是很必要

中间数据的保存全部以文件格式,每次的训练和测试留下一些陌生文件,而且小规模的训练和测试用列表对象会更合适

代码很不Pythonic,也不支持Pypi的简便安装方式

总而言之,LibShorText虽然有引以为傲的技术,但对技术的使用者来说是不友好的。而TextGrocery希望把LibShortText变得更友好一些。

TextGrocery,是一个怎样的杂货铺?

引入结巴分词作为内置的默认分词器

精简LibShortText的代码࿰

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值