ICTCLAS研究了几个月,加了N个晚班之后,现在终于有点眉目啦,ICTCLAS4J有也一定的雏形了。
用Java实现分词的第一大步,断句和分词,下一步就是词性标记了。感觉最复杂的地方就是NShortPath(N-最短路径)这里,虽然源代码里只实现了1-最短路径,但来来回回的复杂处理搞的我有点头晕眼花。好在认真分析之后,搞清楚了其中的实现过程,用Java实现起来,至少在代码是要简练的多了。但过犹不及,不知道哪个地方没有处理好,除了第一个测试用例“他说的确实在理”分词结果正确之外,其他的都不对。
看起来高兴的还有点早,明天有时间得继续调试了。