最近在学中文分词。
发现新词用到了github上的/dict_build,讲解在:
自动构建中文词库:http://www.matrix67.com/blog/archives/5044
挺有意思的。
代码在github上,地址为: https://github.com/sing1ee/dict_build
这种分词方法用到的是互信息、左右熵、位置成词概率等几个关键信息,发现新词。
互信息就不说了,其等于Log2(f * total / max),短语出现的概率除以该短语的左右熵。
左右熵,就是左熵和右熵的乘积;
位置成词概率,就是有概率的词典中 字或词的概率的乘积。
主要实现在FastBuilder.java文件中;应该不难。