在中科院中文分词系统ICTCLAS中采用的是N最短路径的词语初分方法,对实例“他说的确实在理
最短路径有如下几条:长度都是5
他/说/的/确实/在理
他/说/的确/实在/理
他/说/的确/实/在理
根据语料库(data/coreDict.dct ):“的”单独成词的频率为54477;“的确”成词的频率为27;“确”单独成词的频率为26;“确实”成词的频率为53(39+8+6=53);“实”单独成词的频率为31(16+10+1+4=31);“实在”成词的频率为34(27+7=34);“在”单独成词的频率为12022(284+11481+257=12022);“在理”成词的频率为1;“理”单独成词的频率为28(14+13+1=28);
所以最优的为:他/说/的/确实/在理