![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
中文分词
坚持到底cw
奋斗青年
展开
-
中文分词算法—— 基于词典的方法
基于词典的正向最大匹配算法,算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。 算法流程图如下:转自http://yangshangchuan.iteye.com/blog/2031813转载 2014-03-17 13:40:10 · 10728 阅读 · 0 评论 -
中文分词算法——基于统计的分词
1.基于统计的分词(无字典分词)主要思想:上下文中,相邻的字同时出现的次数越多,就越可能构成一个词。因此字与字相邻出现的概率或频率能较好的反映词的可信度。主要统计模型为:N元文法模型(N-gram)、隐马尔科夫模型(Hidden Markov Model, HMM)1.1N-gram模型思想模型基于这样一种假设,第n个词的出现只与前面N-1个词相关,而与转载 2014-03-17 13:51:04 · 10859 阅读 · 0 评论