【转】几个常用的机器学习工具包

 

所谓机器学习,借用维基百科里的话说,是一种“用于创建数据集分析分析程序的方法”(具体的定义在此就不多说了)。借助这些方法我们可以对事件进行建模,常常可以达到通过对已有数据分析,对新数据作出迅速判断的效果。常见的机器学习模型(就我接触的而言)有CRF(条件随机场),SVM(支持向量机),EM(最大熵)和ME(最大似然),当然排名不分先后,至于是generativemodel还是discriminativemodel的分类在这也先不细说了。国外对于这些模型大多都有比较成熟的工具包了,也就说,一般用户只要处理一下数据的格式,就可以通过这些工具包得到相应的模型,再用模型来定制自己的应用。下面就结合我的经历分别说几个接触过的工具包吧。

 

1.mallet
来自UMASS的AndrewMcCallum(CRF的二作,大牛,业界都应该知道,不用解释)。用JAVA写成,除了支持CRF外,还支持topicmodel(可以用于LDA模型)和graphicalmodel。之前做中文的chunk的标注时用过,不过在自己机器上一直有问题,所以做实验一直在服务器上跑数据。

2.crf++
著名的开源工具,在sourceforge上可以下到。好像针对CoNLL2000的任务(chunk)有对应的例子。不过其他的任务也不难,只要修改一下特征模板还是很容易做的。我使用时是用来做POS(词性标注),觉得挺方便,不过就CRF的话,训练速度太慢,十几兆的语料得跑好一阵工夫,太汗了,用自己的本本跑,心疼!

3.libsvm
来自NTU(南洋理工)的两位专家。用于生物信息学很多,从名字上也能看出是SVM的工具包,可以自己选择内核,在它的官网上还有图形界面的演示。我的话,用过这个工具包做过简单的文本二分类的实验,数据需要自己写接口文件处理一下,总体感觉不错。

4.Maxent
最大熵的开源工具。也是java的东西,关于此,没怎么用过,准备在下一阶段重做一下之前NLP方面的任务,如有可能的话再补上吧。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值