简单(simple)词典首先将输入标记转换为小写字母,然后检查停用词表。如果识别为停用词则返回空数组,即表示该标记会被丢弃。否则,输入标记的小写形式作为规范化后的lexeme返回。此外,简单词典可通过设置参数Accept为false(默认值true),将非停用词报告为未识别,传递给后继词典继续处理。例如:
首先创建simple模板的词典:
gbase=# CREATE TEXT SEARCH DICTIONARY public.simple_dict ( TEMPLATE = pg_catalog.simple, STOPWORDS = English );
CREATE TEXT SEARCH DICTIONARY
其中停用词文件全名为english.stop。
测试词典:
gbase=# SELECT ts_lexize('public.simple_dict','YeS');
ts_lexize
-----------
{yes}
(1 row)
gbase=# SELECT ts_lexize('public.simple_dict','The');
ts_lexize
-----------
{}
(1 row)
设置参数ACCEPT=false,使Simple词典返回NULL,而不是返回非停用词的小写形式:
gbase=# ALTER TEXT SEARCH DICTIONARY public.simple_dict ( Accept = false );
ALTER TEXT SEARCH DICTIONARY
gbase=# SELECT ts_lexize('public.simple_dict','YeS');
ts_lexize
-----------
(1 row)
gbase=# SELECT ts_lexize('public.simple_dict','The');
ts_lexize
-----------
{}
(1 row)