文本分类——机器学习常用工具


文本分类现已比较成熟,各类开源工具不少,现推荐几个比较常用简单的工具:
1、scikit-learn:http://scikit-learn.org/stable/index.html 
python编写调用,里面有各种分类算法svm、随机森林、贝叶斯等,和特征提取,如字、ngram等,几行代码便可以构建一个分类任务。

2、WEKA:http://www.cs.waikato.ac.nz/ml/index.html 
具有图形界面,但是感觉速度有点慢

3、libsvm :http://www.csie.ntu.edu.tw/~cjlin/libsvm/ 
仅提供svm的核心算法,不具备特征提取,需自行编写,相对较为灵活

分词工具:
1、计算所的分词工具:http://ictclas.org/ 
该分词工具,计算所暂时没有维护

2、哈工大的分词工具
在计算所的基础上又增加了训练数据,相对来说,分词效果优于计算所的

3、ansjsun:http://www.nlpcn.org/demo# 
继承于计算所的分词工具,效果和调用方式等都较为简单。

转载于:https://www.cnblogs.com/lpjblog/p/3919773.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值