自然语言处理--实战分词NLP
文章目录一、分词方法1.1 规则分词1.1.1 正向最大匹配1.1.2 逆向最大匹配1.1.3 双向最大匹配1.1.4 错误率比较1.2 统计分词1.2.1 主要思路1.2.2 语言模型1.2.3 隐马尔可夫HMM模型思路1.3 混合分词(规则+统计)一、分词方法分词的难点:对歧义词的识别1.1 规则分词基于词库里的一个个词进行切词,缺点是不能处理新词经典算法:正向最大匹配,逆向最大匹配,双向最大匹配1.1.1 正向最大匹配1.统计词典内最长的词有多少字?记为最长词长m2.对一个句子从左往右
复制链接