词典用于定义停用词(stop words),即全文检索时不搜索哪些词。
词典还可以用于对同一词的不同形式进行规范化,这样同一个词的不同派生形式都可以进行匹配。规范化后的词称为词位(lexeme)。
除了提高检索质量外,词的规范化和删除停用词可以减少文档tsvector格式的大小,从而提高性能。词的规范化和删除停用词并不总是具有语言学意义,用户可以根据应用环境在词典定义文件中自定义规范化和删除规则。
一个词典是一个程序,接收标记作为输入,并返回:
- 如果标记在词典中已知,返回对应lexeme数组(注意,一个标记可能对应多个lexeme)。
- 一个lexeme。一个新标记会代替输入标记被传递给后继词典(当前词典可被称为过滤词典)。
- 如果标记在词典中已知,但它是一个停用词,返回空数组。
- 如果词典不能识别输入的标记,返回NULL。
GBase 8c提供了多种语言的预定义字典,并提供多种预定义的词典模板,同时可以根据用户需求创建新模板。