关于我使用的分词工具的总结

目前来说我尝试的两大最好用的分词工具:一个是哈工大的ICTCLAS另外一个就是HANLP这两个工具对于我来说都是非常好的。在前期主要使用的是ICTCLAS,这个分词工具现在来说是非常的成熟的。可以进行分词以及词性标注。网上现在已经提供很多基于ICTCLAS的成品软件可以拿来使用,也可以找到ICTCLAS的工具包导入到工程里面自定义函数实现自己相应的功能。后来发现了HANLP发现HANLP更加的智能化,不仅仅能够实现分词,词性标注,还有更多的好用的功能,比如文章摘要,近义词转换繁体简体转换等等功能。所以个人来说比较偏向于HANLP。但是HANLP没有成品软件来使用,它是个工具包,将工具包和数据导入到工程里面才能实现相应的功能。后来发现这个工具包是一个maven工程,maven工程用之前使用的myeclipse来运行的时候发现了很多的问题,在老铁的指导下发现了更好用的编辑器IDEA,直接maven模式下导入工具包就ok。

关于导入HANLP的过程这里还是不得不提的:

我用的是HANLP1.2.8,由于是开源的,所以在github上可以直接download到它饿的源码(记得源码和数据包一起下载下来)运行的时候将数据包还有用到的jar包一起导入到工程里面。IDEA和myeclipse相比有一个很大的优势:IDEA可以为你的jar包进行自动关联,让你省去了很多的麻烦,这也是为什么很多编程人员都在使用IDEA的原因之一,智能化是它最大的特色。

另外HANLP的官网:http://hanlp.linrunsoft.com/点击打开链接提供了HANLP的使用方法和涉及到的算法,对我来说受益匪浅的东西。

关于分词,我还需要再细细研究,这篇文章只推荐两大好用的分词工具

关于HANLP具体的安装步骤:http://hanlp.linrunsoft.com/services.html点击打开链接

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值