sphinx
君君要上天
每天学习一点点,每天提升一点点。
展开
-
全文索引介绍
相信所有人都用过百度,谷歌等搜索引擎。在使用过程中,我们会发现“搜索”这个操作的神奇之处, 我搜索“IT博客”这个关键词,搜出来的结果会“IT”相关的,有“博客”相关的,有“IT博客”相关的,搜索引擎很智能的将我们我们搜索的词分解开,去查找所有相关的内容。在某宝,某猫等电商网站的搜索功能中也有这种神奇的能力,而且搜索的速度异常的快。如何快速的从海量的数据中快速的搜索出我们想要的相关数据,这就是“全文原创 2017-04-26 20:23:34 · 543 阅读 · 0 评论 -
Sphinx安装与使用
Sphinx安装首先你要有mysql环境,我使用的是lnmp环境下载并安装Sphinx,版本可自由选择wget http://sphinxsearch.com/files/sphinx-2.2.11-release.tar.gztar -zxvf sphinx-2.2.11-release.tar.gzcd sphinx-2.2.11-release.tar.gz./configure --p原创 2017-04-26 20:24:21 · 1386 阅读 · 0 评论 -
在php中使用Sphinx
要使用php连接Sphinx进行全文搜索,有两种方式将Sphinx作为php扩展安装,这种方式比较麻烦,此处不介绍在Sphinx源码目录下的有个api/sphinxapi.php,将此文件reqire到你的php中,即可调用api方法进行全文搜索php调用示例<?phprequire('sphinxapi.php');$sphinx = new SphinxClient();$sphinx原创 2017-04-26 20:26:18 · 2112 阅读 · 2 评论 -
Sphinx增量索引
sphinx创建索引之后,如果我们的数据库又增加了一条数据,需要重新创建索引。但是如果数据量十分庞大时,每次都重新创建索引显然是不合适的。我们希望实现的效果是,每次都只创建新增的数据的索引。增量索引实现原理假设现在数据库中有三条数据,id分别为1,2,3。使用indexer命令为这三条数据创建索引,并把max_doc_id=3记录到一张表(sphinx_counter)中,表示当前主索引已经创建了i原创 2017-04-26 20:26:56 · 635 阅读 · 0 评论 -
Coreseek中文检索引擎
前面几篇文章介绍了Sphinx检索引擎,但是Sphinx只支持英文。Coreseek 是一款中文全文检索/搜索软件,以GPLv2许可协议开源发布,基于Sphinx研发并独立发布,专攻中文搜索和信息处理领域,适用于行业/垂直搜索、论坛/站内搜索、数据库搜索、文档/文献检索、信息检索、数据挖掘等应用场景既然coreseek这么强大,而且支持中文,为什么前面还要介绍sphinx?因为: 由于Cores原创 2017-04-26 20:28:52 · 1381 阅读 · 0 评论 -
Coreseek自定义中文词库
自定义中文词库进入/usr/local/mmseg3/etc,在这里能看到这几个文件:mmseg.ini unigram.txt uni.lib unigram.txt是词库的文本文件, uni.lib是mmseg真正使用的词库字典我们可以在unigram.txt中增加我们想要的分词,然后用mmseg -u命令去重新生成新的lib文件vim unigram.txt词库文本内容格式如下:分词库的原创 2017-04-26 20:31:35 · 1555 阅读 · 1 评论