p(w1,w2)p(w2,w3)...p(wn-1,wn)
p(w1,w2)表示在文章中,词语w1和词语w2相继出现的概率。上面是个概率乘积,乘积最大的分词方案最优
分词核心主要就这样。当然前提得有个庞大的语料库,语料库的建立比较麻烦,但还好一般都机构建好了。有了语料库就是把语料库作为一个hash来查找了,这样任意一个句子(甚至不成文的) 都能查找到多种分词方案,按以上式子选出乘积最大的分词方案就可以了。
一般还要考虑停用词,那些并不是主要的分词问题。
p(w1,w2)p(w2,w3)...p(wn-1,wn)
p(w1,w2)表示在文章中,词语w1和词语w2相继出现的概率。上面是个概率乘积,乘积最大的分词方案最优
分词核心主要就这样。当然前提得有个庞大的语料库,语料库的建立比较麻烦,但还好一般都机构建好了。有了语料库就是把语料库作为一个hash来查找了,这样任意一个句子(甚至不成文的) 都能查找到多种分词方案,按以上式子选出乘积最大的分词方案就可以了。
一般还要考虑停用词,那些并不是主要的分词问题。