人大金仓分析型数据库中文分词

目录

配置参数

中文分词

自定义词库


        zhparser是一个中文分词插件,可以支持中文的全文检索(Full Text Search)。英语的分词原理很简单,按照标点、空格切分语句即可获得有含义的词语,数据库内置的parser就是按照这个原理来分词的。而中文相对复杂,词语之间没有空格分割,长度也不固定,怎么分词有时还和语义有关,自带的parser不能用于中文分词。使用zhparser这个插件可以使数据库支持中文分词, 继而可以做中文全文检索。

配置参数

        这些选项是用来控制字典加载行为和分词行为的,这些选项都不是必须的,默认都为false(即如果没有在配置文件中设置这些选项,则zhparser的行为与将下面的选项设置为false一致)。

  • 忽略所有的标点等特殊符号: zhparser.punctuation_ignore = f
  • 闲散文字自动以二字分词法聚合: zhparser.seg_with_duality = f
  • 将词典全部加载到内存里: zhparser.dict_in_memory = f
  • 短词复合: zhparser.multi_short = f
  • 散字二元复合: zhparser.multi_duality = f
  • 重要单字复合:zhparser.multi_zmain = f
  • 全部单字复合: zhpar
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值