coreseek索引的词项的列表

最新推荐文章于 2024-09-09 23:28:21 发布

weixin_34228387

最新推荐文章于 2024-09-09 23:28:21 发布

阅读量65

点赞数

文章标签： python

原文链接：https://my.oschina.net/u/919580/blog/113181

版权

2019独角兽企业重金招聘Python工程师标准>>>

--buildstops <outputfile.text> <N> 像建立索引一样扫描索引对应的数据源，产生一个最终会被加入索引的词项的列表。换种说法，产生一个用这个索引可以检索的词项的列表。注意，这个选项使indexer并不真正更新指定的索引，而只是“假装”建在立索引似地处理一遍数据，包括运行sql_query_pre或者sql_query_post选项指定的查询。outputfile.txt文件最终会包含一个词表，每行一个词，按词频排序，高频在前。参数N指定了列表中最多可出现的词项数目，如果N比索引中全部词项的数目还大，则返回的词项数就是全部词项数。客户端应用程序利用这种字典式的词表来提供“您是要搜索。。。吗？(Did you mean…)”的功能，通常这个选项与下面要讲的--buildfreqs选项一同使用。示例：
```
$ indexer myindex --buildstops word_freq.txt 1000
```
这条命令在当前目录产生一个word_freq.txt文件，内含myindex这个索引中最常用的1000个词，且最常用的排在最前面。注意，当指定了多个索引名或使用了--all选项（相当于列出配置文件中的所有索引名）时，这个选项对其中的最后一个索引起作用。
--buildfreqs 与 --buildstops一同使用 (如果没有指定 --buildstops 则--buildfreqs也被忽略). 它给--buildstops产生的词表的每项增加一个计数信息，即该词在索引中共出现了多少次，这在建立停用词（stop words，出现特别普遍的词）表时可能有用。在开发“您是要搜索。。。吗？(Did you mean…)”的功能时这个选项也能帮上忙，因为有了它你就能知道一个词比另一个相近的词出现得更频繁的程度。示例：
```
$ indexer myindex --buildstops word_freq.txt 1000 --buildfreqs
```
这个命令将产生一个类似于上一条命令的word_freq.txt ，但不同在于，每个词的后面都会附加一个数字，指明在指定的索引中这个词出现了多少次。

最后会产生的文档，可以提供更多搜索方面的模糊匹配

转载于:https://my.oschina.net/u/919580/blog/113181

weixin_34228387

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。