目录
zhparser是一个中文分词插件,可以支持中文的全文检索(Full Text Search)。英语的分词原理很简单,按照标点、空格切分语句即可获得有含义的词语,数据库内置的parser就是按照这个原理来分词的。而中文相对复杂,词语之间没有空格分割,长度也不固定,怎么分词有时还和语义有关,自带的parser不能用于中文分词。使用zhparser这个插件可以使数据库支持中文分词, 继而可以做中文全文检索。
配置参数
这些选项是用来控制字典加载行为和分词行为的,这些选项都不是必须的,默认都为false(即如果没有在配置文件中设置这些选项,则zhparser的行为与将下面的选项设置为false一致)。
- 忽略所有的标点等特殊符号: zhparser.punctuation_ignore = f
-
闲散文字自动以二字分词法聚合: zhparser.seg_with_duality = f
-
将词典全部加载到内存里: zhparser.dict_in_memory = f
-
短词复合: zhparser.multi_short = f
-
散字二元复合: zhparser.multi_duality = f
- 重要单字复合:zhparser.multi_zmain = f
-
全部单字复合: zhpar