盘古分词
盘古分词是一个开源中文分词组件。其界面如图所示
特点
多元分词
中文分词按照分词粒度来分,可以分成一元分词,二元分词,精确分词等类型。
一元分词就是最简单的分词,将所有的中文字符按照单字形式输出。
二元分词按双字形式输出。
多元分词则是将一句话中可能的单词组合按照一定规则输出,允许输出的词有重叠。
精确分词则是将一句话中最准确的单词组合输出,不允许输出的词有重叠。
一元分词与二元分词较为简单,效果也不太理想。
而对于精确分词和多元分词,二者进行比较
例子:“许仙喝了口黄酒”这句话,精确分词一般分为 “许仙/喝了/口/黄酒”。而多元分词会分解为“ 许/仙/许仙/喝/了/口/黄/酒/黄酒/喝了口/ ”。盘古分词的开发者更多是从搜索引擎的角度对于分词进行考虑,很明显,在搜索引擎的应用领域,多元分词更加丰富的分词结果要比精确分词更加具有优