这两天因为需要就研究了.net环境下的中文分词,发现在目前的最高2.3.1Lucene.net版本下中文分词效果不好,他自带了一些分词器,均没有什么效果,出来单词切分,连JCK二分法都不提供,更谈不上基于词典的分词了。
下面我发俩段代码,前一段是我通过写一个二分法类来实现双字切分,后一段是通过调用肖波的分词器,自己又写了一个.net环境接口来实现基于词典的分词,以供大家学习之用……
代码段一
这两天因为需要就研究了.net环境下的中文分词,发现在目前的最高2.3.1Lucene.net版本下中文分词效果不好,他自带了一些分词器,均没有什么效果,出来单词切分,连JCK二分法都不提供,更谈不上基于词典的分词了。
下面我发俩段代码,前一段是我通过写一个二分法类来实现双字切分,后一段是通过调用肖波的分词器,自己又写了一个.net环境接口来实现基于词典的分词,以供大家学习之用……
代码段一