1、python工具包结巴分词,可直接使用easy_intall下载,方便。http://www.oschina.net/news/34492/jieba-0-20
2、HanLP这个Java工具包功能很强大,但在特定任务上容易出现过拟合。比如在语音识别后的文本上表现就不是那么好,容易把很多词分为人名。目前为止至少我还没找到可弥补的方法。https://github.com/hankcs/HanLP
3、Ansj这个java工具包,虽然没有HanLP新,但目前在偏口语化的文本中表现的还可以,再加上自己的词典效果还是很乐观。比HanLP适应性强。http://www.oschina.net/news/51757/ansj-1-41
总之,别人说好的东西不一定好,要根据不同任务亲手实验才是王道。