GBase 8c 词典

词典用于定义停用词(stop words),即全文检索时不搜索哪些词。

词典还可以用于对同一词的不同形式进行规范化,这样同一个词的不同派生形式都可以进行匹配。规范化后的词称为词位(lexeme)。

除了提高检索质量外,词的规范化和删除停用词可以减少文档tsvector格式的大小,从而提高性能。词的规范化和删除停用词并不总是具有语言学意义,用户可以根据应用环境在词典定义文件中自定义规范化和删除规则。

一个词典是一个程序,接收标记作为输入,并返回:

  • 如果标记在词典中已知,返回对应lexeme数组(注意,一个标记可能对应多个lexeme)。
  • 一个lexeme。一个新标记会代替输入标记被传递给后继词典(当前词典可被称为过滤词典)。
  • 如果标记在词典中已知,但它是一个停用词,返回空数组。
  • 如果词典不能识别输入的标记,返回NULL。

GBase 8c提供了多种语言的预定义字典,并提供多种预定义的词典模板,同时可以根据用户需求创建新模板。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值