技术简介:
Sphinx是一个基于SQL的全文检索引擎,可以结合MySQL,PostgreSQL做全文搜索,它可以提供比数据库本身更专业的搜索功能,使得应用程序更容易实现专业化的全文检索。Sphinx特别为一些脚本语言设计搜索API接口,如PHP,Python,Perl,Ruby等,同时为MySQL也设计了一个存储引擎插件。
Sphinx 单一索引最大可包含1亿条记录,在1千万条记录情况下的查询速度为0.x秒(毫秒级)。Sphinx创建索引的速度为:创建100万条记录的索引只需 3~4分钟,创建1000万条记录的索引可以在50分钟内完成,而只包含最新10万条记录的增量索引,重建 如果用到sphinx,全文索引交给sphinx来做,sphinx返回含有该word的ID号,然后用该ID号直接去数据库准确定位那些数据,整个过程如下图:一次只需几十秒。
因为sphinx默认不支持中文索引及检索,而coreseek基于sphinx开发了coreseek全文检索服务器,它提供了为sphinx设计的中文分词包libmmseg包含mmseg中文分词,是目前用的最多的sphinx中文检索。在没有sphinx之前,mysql数据库要对海量的文章中的词进行全文索引,一般用的语句例如:SELECT *** WHERE *** LIKE '%word%';这样的LIKE查询,并且再结合通配符%,是使用不到mysql本身的索引,需要全表扫描,时间超慢的!
如果用到sphinx,全文索引交给sphinx来做,sphinx返回含有该word的ID号,然后用该ID号直接去数据库准确定位那些数据,整个过程如下图:
[第一步] 先安装mmseg3
1. cd /data/program
2. tar zxvf coreseek-4.1-beta.tar.gz
3. cd coreseek-4.1-beta
4. cd mmseg-3.2.14
5. ./bootstrap
6. ./configure --prefix=/usr/local/mmseg3
7. make && make install
8.
9. 遇到的问题:
10. error: cannot find input file: src/Makefile.in
11. 或者遇到其他类似error错误时...
12.
13. 解决方案:
14. 依次执行下面的命令
15. yum -y install libtool
16.
17. aclocal
18. libtoolize --force
19. automake --add-missing
20. autoconf
21. autoheader
22. make clean
安装好'libtool'继续从'aclocal'开始执行上面提到的一串命令,执行完后再运行最开始的安装流程即可。
[第二步] 安装coreseek
1. ##安装coreseek
2. $ cd csft-3.2.14 或者 cd csft-4.0.1 或者 cd csft-4.1
3. $ sh buildconf.sh #输出的warning信息可以忽略,如果出现error则需要解决
4. 如无法编译
5. 1. 在 csft-4.1/buildconf.sh 文件中,查找
6. && aclocal \ 后加上
7. && automake --add-missing \
8. 2. 在 csft-4.1/configure.ac 文件中,
9. 查找:
10. AM_INIT_AUTOMAKE([-Wall -Werror foreign])改为:
11. AM_INIT_AUTOMAKE([-Wall foreign])
12. 查找:
13. AC_PROG_RANLIB 后面加上:
14. AM_PROG_AR
1