coreseek中文检索引擎在 LAMP 上的使用

简要:

有关于coreseek的介绍、在LAMP上的安装及简单的测试可以参考我的另一篇博客Centos7下安装coreseek中文检索引擎

一、安装PHP的sphinx扩展:

=====================1、安装libsphinxclient================

#linsphinxclient在解压缩出来的coreseek-3.2.14里面

cd /usr/local/src/coreseek/csft-3.2.14/api/libsphinxclient

#安装在 /usr/local/sphinxclient
./configure  --prefix=/usr/local/sphinxclient

make && make install

====================2、安装sphinx的PHP扩展===================

cd /usr/local/src

wget http://pecl.php.net/get/sphinx-1.1.0.tgz

tar -zxvf sphinx-1.1.0.tgz

cd sphinx-1.1.0

# 使用安装php时生成的phpize来生成configure配置文件
/usr/local/php/bin/phpize   (或 /usr/bin/phpize) 
# 具体用哪个要取决于你的phpize文件所在的目录,这时你应该用 whereis phpize 来查看路径 

./configure --with-php-config=/usr/bin/php-config --with-sphinx=/usr/local/sphinxclient
# 其中 php-config 和 phpize 所在的目录是相同的,比如上面我用 /usr/bin/phpize,则在这一步我用 ./configure –with-php-config=/usr/bin/php-config。而/usr/local/sphinxclient就是上面的libsphinxclient的安装目录

make && make install

#注意,如果你的php版本是5.4,那么在这一步中会出现错误,提示在 sphinx.c:105:2,可以按下面方式修改:

#vim sphinx.c,找到105行

#把 retval = std_hnd->read_property(object, member, type TSRMLS_CC); 修改成 retval = std_hnd->read_property(object, member, type TSRMLS_CC, NULL);

#重新编译安装

#./configure --with-php-config=/usr/bin/php-config --with-sphinx=/usr/local/sphinxclient

#make && make install

安装完之后我们还要修改php.ini文件:

vim /etc/php.ini    #具体php.ini的位置自己查哈

#在php.ini文件的最后一行添加:
extension="sphinx.so"

#重启apache服务器
systemctl restart httpd.service

重启之后,在某个php文件里面添加 echo phpinfo();,在详情页面中假如有:
这里写图片描述
则说明安装 sphinx 的PHP扩展成功啦!

二、sphinx配置文件和测试表

一开始是没有sphinx配置文件的,我们要首先建立sphinx.conf配置文件:

cd /usr/local/coreseek/etc

cp sphinx.conf.dist sphinx.conf     #sphinx配置文件的默认名就是sphinx.conf

在这里先介绍一些sphinx.conf配置文件的结构:

#主数据源
source main{
{
#增量数据源
source delta:main{
}
#主数据索引
index main{
}
#增量数据索引
index delta:main{
}
#分布式索引
index dist1{
}
#索引器
indexer{
}
#服务进程
searchd{
}

由于初始的配置文件有很多注释,我们为了简单起见,可以将那些注释都删除了,以后要用到注释的时候可以参照sphinx.conf.dist,下面我贴出我的简化后的配置文件:

#主数据源(命名为main)
source main
{
    type                    = mysql

    sql_host                = localhost
    sql_user                = root
    sql_pass                = zhongjin
    sql_db                  = test
    sql_port                = 3306  # optional, default is 3306
    #sql_sock               = /var/lib/mysql/mysql.sock
    sql_query_pre           = SET NAMES UTF8    #mysql检索字符集
    sql_query_pre           = SET SESSION query_cache_type=OFF  #关闭缓存
    sql_query               = \
        SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \
        FROM documents  #获取数据的SQL语句
    #sql_attr_timestamp     = date_added    #排序字段
    sql_ranged_throttle = 0
    sql_query_info      = SELECT * FROM documents WHERE id=$id  #这里的id对应于数据表的主键
}

#增量数据源(暂时用不到,先注释了)
#source src1throttled : main
#{
#   sql_ranged_throttle         = 100
#}

#主数据索引
index main
{
    source          = main  #指定主数据源
    path            = /usr/local/coreseek/var/data/main     #索引数据存放路径
    docinfo         = extern
    mlock           = 0
    morphology      = none


    #stopwords          = G:\data\stopwords.txt

    #wordforms          = G:\data\wordforms.txt
    #exceptions     = /data/exceptions.txt

    min_word_len        = 1
    charset_type        = utf-8
    html_strip              = 0
    #charset_table     = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44    F
}

#增量数据索引(暂时用不到)
#index test1stemmed : test1
#{
#   path            = /usr/local/coreseek/var/data/test1stemmed
#   morphology      = stem_en
#}

#分布式索引(暂时用不到)
#index dist1
#{
#   type                = distributed
#
#   local               = test1
#   local               = test1stemmed
#   agent               = localhost:9313:remote1
#   agent               = localhost:9314:remote2,remote3
#   agent_connect_timeout   = 1000
#
#   agent_query_timeout     = 3000
#}

#索引器(基本不用改)
indexer
{
    mem_limit           = 128M
}

#服务进程(不用修改)
searchd
{
    log                 = /usr/local/coreseek/var/log/searchd.log
    query_log           = /usr/local/coreseek/var/log/query.log
    read_timeout        = 5
    client_timeout      = 300

    max_children        = 30

    pid_file            = /usr/local/coreseek/var/log/searchd.pid

    max_matches         = 1000

    seamless_rotate     = 1

    preopen_indexes     = 0
    unlink_old          = 1

    mva_updates_pool    = 1M
    max_packet_size     = 8M

    max_filters         = 256
    max_filter_values   = 4096
}

在主数据源的设置中,sql_query 和 sql_query_info 字段都是 From document,这里用的是 安装 coreseek 时提供的测试表,位于 /usr/local/coreseek/etc/example.sql,根据设置,我们创建数据库和导入测试数据表:

mysql -uroot -pzhongjin

CREATE DATABASE test;

USE test;

#导入数据
SOURCE /usr/local/coreseek/etc/example.sql;

SHOW TABLES;

#+----------------+
#| Tables_in_test |
#+----------------+
#| documents      |
#| tags           |
#+----------------+

SELECT * FROM documents;

现在该表里面有四条数据,待会我们就是用该表来测试 sphinx。

现在配置文件有了,测试数据也有了,下面就是测试了。

三、sphinx搜索测试:

1、先创建索引:在新增数据之后,都得重新索引一次

创建索引命令:indexer,
-c 指定配置文件
–all 对所有索引重新编制索引
–rotate 用于轮换索引,主要是在不停止服务的时候增加索引
–merge 合并索引

针对 test:documents 创建索引

#基本所有的命令都在该目录下
cd /usr/local/coreseek/bin

./indexer -c /usr/local/coreseek/etc/sphinx.conf --all

这里写图片描述

可以看到,我们的配置文件,还有就是我们索引的是 main 主数据源,总共有四个文档,正好对应数据表。

2、查询关键字

查询命令:search
-c 指定配置文件

查关键字 test:

cd /usr/local/coreseek/bin 

./search -c /usr/local/coreseek/etc/sphinx.conf test

这里写图片描述

查询的结果如上图所示,图中的结果表明,test 在第一篇文档中出现两次,在第二篇文档中出现两次,在第三篇文档中出现一次,总共在三个文档中出现,总共出现5次。

查关键字 group:

./search -c /usr/local/coreseek/etc/sphinx.conf group

这里写图片描述
从结果中可以发现,group只在一个文档中出现一次,但是查表发现,数据表中有 group 和 groups,为什么 groups 没有被匹配出来?因为在英文分词中是以空格进行分词的,因此group和groups是两个不同的单词。

现在我们插入一条数据,看看能不能查询出来:

mysql -uroot -pzhongjin test

INSERT INTO documents(group_id,group_id2,date_added,title,content) VALUES(3,9,NOW(),'zhongjin','zhongjin is a student');

查关键字 zhongjin

./search -c /usr/local/coreseek/etc/sphinx.conf zhongjin;

结果是 zhongjin 关键字在0个文档中出现0次,为什么?

因为我们没有索引该条记录呀,前面不是说了嘛,新增数据之后,都得重新进行索引(这个有解决方案,后面有机会再说)

./indexer -c /usr/local/coreseek/etc/sphinx.conf --all

./search -c /usr/local/coreseek/etc/sphinx.conf zhongjin;

这回出来了吧。。。。。

3、试试中文?

mysql -uroot -pzhongjin test

INSERT INTO documents(group_id,group_id2,date_added,title,content) VALUES(3,9,NOW(),'LSGO实验室','华北电力大学LSGO实验室');

./indexer -c /usr/local/coreseek/etc/sphinx.conf --all

./search -c /usr/local/coreseek/etc/sphinx.conf LSGO实验室;

这里写图片描述

从结果来看,sphinx将‘LSGO实验室’分成了‘LSGO’和‘实验室’,而且‘lsgo’被匹配出来了,但是 ‘LSGO实验室’没出来!为什么?

因为我这里测试的是 sphinx,仅仅对英文起作用,对中文不起作用。

下面我讲对中文检索引擎进行搜索测试

四、coreseek搜索测试

一开始是没有 coreseek 配置文件的,我们要首先建立 csft.conf 配置文件:

由于 csft.conf 配置文件中的大部分内容跟 sphinx.conf 的内容是一样的,我们仅仅要修改只是很小一部分

cd /usr/local/coreseek/etc

cp sphinx.conf csft.conf        #coreseek 配置文件的默认名就是csft.conf

修改 csft.conf:1、修改字符集,将charset_type = utf-8 换成 charset_type = zh_cn.utf-8 (换成中文的 utf-8),2、添加中文字典的绝对路径(直接在 charset_type 下面添加就可以), charset_dictpath = /usr/local/mmseg3/etc/ (就是你编译安装 mmseg3 的时候的目录下的 /etc/ 目录)

就是上面的两点不同,其他的设置跟 sphinx.conf 是一模一样的。

前面我们试图搜索关键字 ‘LSGO实验室’,发现搜索不了,那么现在我们再用那条数据测试,看看能不能搜索出来:

cd /usr/local/coreseek/bin

#重新生成索引
./indexer -c /usr/local/coreseek/etc/csft.conf --all

#搜索关键字 'LSGO实验室'
./search -c /usr/local/coreseek/etc/csft.conf LSGO实验室

这里写图片描述

结果发现关键字‘实验室’被搜索出来了!

我们添加一条数据再试试?

mysql -uroot -pzhongjin test

INSERT INTO documents(group_id,group_id2,date_added,title,content) VALUES(3,9,NOW(),'华北电力大学','我在华北电力大学保定校区上学呢!');

#重新生成索引
./indexer -c /usr/local/coreseek/etc/csft.conf --all

#搜索关键字 'LSGO实验室'
./search -c /usr/local/coreseek/etc/csft.conf 华北电力大学

这里写图片描述

结果证明了一切。。。。。(奇怪,’华北电力大学‘ 竟然不在字典里面!)

PS:如果搜索不出来,很有可能是数据表的编码的影响,因为这个测试的数据表的默认编码是 latin1,要改成 utf8。(这里我确实改了)

五、在 PHP 中使用 sphinx 技术

啊哈,终于到了最关键的一步了。假如我们要在 PHP 中使用 sphinx 技术,就要做到以下几点:

  1. 首先得有数据;
  2. 建立sphinx配置文件
  3. 生成索引
  4. 启动sphinx服务进程(searchd),并开启端口9312
  5. 安装PHP的sphinx扩展
  6. 用PHP客户端去连接sphinx服务器

目前为止,我们就差 4 、6 还没完成,

启用sphinx服务命令:searchd

-c 指定配置文件
–stop 停止服务
–pidfile 显式指定一个PID文件
-p 指定端口

4、启动sphinx服务进程(searchd),并开启端口9312:

cd /usr/local/coreseek/bin

./searchd (或 ./search -c /usr/local/coreseek/etc/csft.conf) #这里默认加载csft.conf配置,如果你的配置文件不叫 csft.conf,那么可以用 -c 添加另外的配置文件

这里写图片描述

以上图片表示 searchd 服务开启成功,当然你可以使用:

ps aux | grep searchd
#或
netstat -tunpl | grep 9312

查看 searchd 的状态

6、用PHP客户端去连接sphinx服务器

<?php
        $sphinx = new SphinxClient();

        //设置主机名和端口号(默认9312)
        $sphinx->SetServer("localhost",9312);

        //设置匹配的方式 SPH_MATCH_ANY表示所有的结果,SPH_MATCH_ALL表示只包含关键词的结果,举例子:搜索关键词’LSGO实验室‘,那么SPH_MATCH_ANY表示返回包含’LSGO‘的、’实验室‘的、’LSGO实验室‘的结果,而SPH_MATCH_ALL只返回包含’LSGO实验室‘的结果
        $sphinx->SetMatchMode(SPH_MATCH_ANY);

        //query('a','b');在b索引中搜索关键字a,query('a','*');在所有的索引中搜索a
        $result = $sphinx -> query("$keyword","main"); 

        echo "<pre>";
        print_r($result);
        echo "</pre>";


======================获取数据库中的详细信息====================
        $ids = join(',',array_keys($result['matches']));
        $mysql = new mysqli('localhost','root','zhongjin','test');
        $mysql->query("SET NAMES utf8");
        $sql = "SELECT * FROM documents WHERE id IN({$ids})";

        $res = $mysql->query($sql);
        while($ret = $res->fetch_assoc()){
            print_r($ret);
            echo "<br>";
        }   
?>

上面代码中的前面部分只是为了演示在sphinx索引中存储的值,后半部分通过搜索获取到对应字段的id,再通过这些 id 去数据库中找到它们的详细信息。

本博客在写作的过程中,参考了大量的网上资料,还有就是lamp兄弟连PHP特级视频

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
说明 一、本压缩包含: 1、Demo源码,位于:\Demos\G-TcpServerLibDemo\G-TcpServerLibDemo.vcproj 2、G-TcpServer模块头文件文件,位于:\G-Sockets\G-TcpServer.h(模块核心文件) 3、G-TcpServer模块Lib文件,位于:\G-Sockets\G-TcpServer.lib(模块核心文件) 4、无限制Demo exe文件:G-TcpServerLibDemo1.0.exe 二、受限制库G-TcpServer.lib说明: 库文件G-TcpServer.lib是受限制的试用版本和Demo配套。 1、最大连接不能超过100 2、发送字节数不能超过128 3、不能设置0读投递 4、其他功能限制 三、版本解读说明 1、版本名带T的表示是受限制的试用版,参阅二 2、版本名带bata表示非正式版 3、版本名带WChar表示支持WideChar 4、版本号以时间格式累加计数(60进1)和显示 四、技术说明 1、模块包含处理线程、工作线程和看守线程。 工作线程负责IO投递工作,并响应投递返回,再把接收的数据投递给处理线程,处理线程调用回调函数给应用层,以此可以在通讯层和应用层之间现实0拷贝数据的功能。模块只有一个看守线程,负责:a、响应Accept事件并投递接受队列;b、效验接受超时(即只连接不发数据)断开连接,防止空连接;c、效验空闲超时(即心跳超时)断开连接。 按工作量来分,最繁重的是处理线程,其次是工作线程,最闲的是看守线程。可通过OnThread事件回调函数设置线程权限。在此线程模式下,应用层可以在回调函数里处理数据而不必再建立另外的数据处理线程池。 2、线程平衡 为使连接能平衡使用处理线程,每个连接同时只有一个处理线程处理工作线程投递过来的IO返回事件并调用回调函数通知应用层。 3、收发平衡 为使连接能平衡使用IO设备,每个连接同时只能投递一个读请求,并通过线程平衡机制保证接收的数据是按顺序的被处理线程处理及通过回调函数传递给应用层;同时也只能投递一个写请求,其余写请求都按顺序放在写队列里面。读写同步都使用临界段。 4、0拷贝技术 接收数据0拷贝看1项;提供GTcpSvr_AllocGBuf()、GTcpSvr_FreeGBuf()和GTcpSvr_PostSendGBuf()三个函数实现发送数据的0拷贝。 5、0读投递 为避免内核锁定分页内存过多,可通过设置来采用0读投递来降低吞吐性能从而实现大连接量。 6、HndData回收 HndData回收有多种方法,但额外会在收发数据这两个频率操作上增加工作量,因此尽量避免在这两个操作时做太多的工作是有必要的。模块均不采用“投递计数”或“投递链表”的方式来判断回收HndData的时机,而是一旦断线立即回收,其他未决投递继续返回时只处理IoData,不对HndData做任何写操作。同时为避免HndData刚收回来但其未决投递还没有完全返回之前就立即被利用的可能性,HndData池采用了FIFO双锁并发链表,该链表通过ExNumber值来实现在最大连接情况下HndData池还有ExNumber个数量使链表不为NULL,通过设置ExNumber数量可实现控制链表末端的HndData出列时间,在这个时间内可以保证断开刚回收的HndData的未决投递能够完全返回。 HndData池,初始时如下: HD1 + HD2 + HD... + HDMaxConnection + HDEx1 + HDEx2 + HDEx... + HDExNumber | | Head------------------------------------------------------------------Tail 达到最大连接时如下: HDEx1 + HDEx2 + HDEx... + HDExNumber | | Head---------------------------Tail 断开回收一个HndData(HD)后如下: HDEx1 + HDEx2 + HDEx... + HDExNumber + HD | | Head-------(需要T时间HD才能出列)------Tail

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值