准备把以前的一个分词程序贡献出来,希望给大家一个思路。
这个程序我现在已经不用,因为有更好的算法去分,速度更快,所以这个就帮大家起一个抛砖引玉的作用。因为也不是高深的技术,所以就开源了
具体使用的结构 用到了键树 词库使用 网上那个假冒的baidu词库
慢慢的,每天放一些代码出来,大家可以先了解下键树,这样理解起来更好一些,修改起来也更有思路。
这个分词程序分词的速度大概在1w字/秒,使用最大截词,资源占用30M占有,属于速度比较慢的,不过纯属给大家一个思路。
准备把以前的一个分词程序贡献出来,希望给大家一个思路。
这个程序我现在已经不用,因为有更好的算法去分,速度更快,所以这个就帮大家起一个抛砖引玉的作用。因为也不是高深的技术,所以就开源了
具体使用的结构 用到了键树 词库使用 网上那个假冒的baidu词库
慢慢的,每天放一些代码出来,大家可以先了解下键树,这样理解起来更好一些,修改起来也更有思路。
这个分词程序分词的速度大概在1w字/秒,使用最大截词,资源占用30M占有,属于速度比较慢的,不过纯属给大家一个思路。