GBase 8c 词典-简单词典

本文介绍了如何使用数据库管理工具创建和配置简单词典,该词典主要用于文本分析中的停用词过滤。通过示例展示了如何在 PostgreSQL 中创建基于 simple 模板的词典,并调整其参数来处理非停用词。通过测试,我们看到当设置 Accept 参数为 false 时,词典将忽略非停用词,这对于后续的文本处理和信息检索至关重要。
摘要由CSDN通过智能技术生成

        简单(simple)词典首先将输入标记转换为小写字母,然后检查停用词表。如果识别为停用词则返回空数组,即表示该标记会被丢弃。否则,输入标记的小写形式作为规范化后的lexeme返回。此外,简单词典可通过设置参数Accept为false(默认值true),将非停用词报告为未识别,传递给后继词典继续处理。例如:

        首先创建simple模板的词典:

gbase=# CREATE TEXT SEARCH DICTIONARY public.simple_dict ( TEMPLATE = pg_catalog.simple, STOPWORDS = English );

CREATE TEXT SEARCH DICTIONARY

其中停用词文件全名为english.stop。

测试词典:

gbase=# SELECT ts_lexize('public.simple_dict','YeS');

 ts_lexize

-----------

 {yes}

(1 row)

gbase=# SELECT ts_lexize('public.simple_dict','The');

 ts_lexize

-----------

 {}

(1 row)

设置参数ACCEPT=false,使Simple词典返回NULL,而不是返回非停用词的小写形式:

gbase=# ALTER TEXT SEARCH DICTIONARY public.simple_dict ( Accept = false );

ALTER TEXT SEARCH DICTIONARY

gbase=# SELECT ts_lexize('public.simple_dict','YeS');

 ts_lexize

-----------



(1 row)
gbase=# SELECT ts_lexize('public.simple_dict','The');

 ts_lexize

-----------

 {}

(1 row)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值