全文索引xunsearch的详细讲解及sphinx的比较（笔记1）

Ethanhuyi

于 2017-08-15 11:52:16 发布

阅读量1.6k

点赞数

一、获取：

xunsearch下载地址： http://www.xunsearch.com/site/download。

linux命令行下载:wget http://www.xunsearch.com/download/xunsearch-full-latest.tar.bz2

解压:tar -xjf xunsearch-full-latest.tar.bz2

二、安装：

根据提示进行操作，输入 xunsearch 软件包的安装目录，这里最好把xunsearch单独放在一个目录下。

cd xunsearch-full/

sh setup.sh

三、启动

启动/重新启动 xunsearch 的后台服务$prefix 替换为你的xunsearch安装目录

cd $prefix;

bin/xs-ctl.sh restart

添加到开机启动脚本，在 Linux 系统中将脚本指令$prefix/bin/xs-ctl.sh restart写进 /etc/rc.local 即可

四、xunsearch项目配置文件详解

项目名称 project.name = AppName

默认字符集 project.default_charset = UTF-8

定义字段[field_name]

type 字段类型

string 字符型，适用多数情况，也是默认值
numeric 数值型，包含整型和浮点数，仅当字段需用于以排序或区间检索时才设为该类型，否则请使用 string　即可
date 日期型，形式为 YYYYmmdd 这样固定的 8 字节，如果没有区间检索或排序需求不建议使用
id 主键型，确保每条数据具备唯一值，是索引更新和删除的凭据，每个搜索项目必须有且仅有一个 id 字段，该字段的值不区分大小写
title 标题型，标题或名称字段，至多有一个该类型的字段
body 内容型，主内容字段, 即本搜索项目中内容最长的字段，至多只有一个该类型字段，本字段不支持字段检索

五、weight 混合区检索时的概率权重在混合检索时，可以对标题和内容等不同字段进行权重计算，如果你不想该字段参与计算权重可设为 0 。通常默认值为 1 ，但 title 型默认为 5 而 body 型则固定为 1 。

weight = 1

六、index 索引方式

none 不做索引，所有的搜索匹配均与本字段无关，这个字段只用于排序或搜索结果展示用到。
self 字段索引，可以在搜索时用 field:XXX 来检索本字段
mixed 混合区索引，不标明字段的默认搜索也可以检索本字段
both 相当于 self + mixed，两种情况均索引

七、搜索相关代码

require '$prefix/sdk/php/lib/XS.php';

$xs = new XS('demo'); // 建立 XS 对象，项目名称为：demo

$search = $xs->search; // 获取搜索对象

//搜索语句

$query = '项目测试'; // 这里的搜索语句很简单，就一个短语

$search->setQuery($query); // 设置搜索语句

$search->addWeight('subject', 'xunsearch'); // 增加附加条件：提升标题中包含 'xunsearch' 的记录的权重

$search->setLimit(5, 10); // 设置返回结果最多为 5 条，并跳过前 10 条

$docs = $search->search(); // 执行搜索，将搜索结果文档保存在 $docs 数组中

$count = $search->count(); // 获取搜索结果的匹配总数估算值

八、xunsearch原理说明

当你安装完xunsearch之后，会有两个(服务)软件启动

索引服务或者说索引服务器（是建立在xapian核心上的），然后它会监听一个端口，他负责维护索引文件或者说索引表(索引的增，删);
搜索服务或者说搜索服务器(scws分词器核心上)，它也会监听一个端口，他负责根据客户提交过来的数据的进行分词，到索引表中查询得到相关数据的id(这里的id是主键索引),然后再到数据库中查询，然后返回结果集。
知道他的原理之后，程序员怎么按照上面的发送命令呢，即xunsearch提供的php sdk,我们程序员只要根据sdk中api就可以了，所以开发就简单了。
官网架构截图
补冲说明：经过本人测试发现，xunsearch与sphinx原理上略有不同，xunsearch当然在创建索引时，其实他是创建了一个自己的数据库，如果你用xunsearch去查寻数据时，他不会再到你的mysql数据库中去查寻了，而是直接到它本身的数据库中去查寻，然后返回数据，而sphinx 不是这样的，sphinx创建一些索引文件（索引表），然后通过sphinx去查寻数据时，首先他到索引文件查寻数据，然后返回的是当前要查寻数据的 id（这里id是主键），然后再通过id去到mysql数据中查寻数据，然后再返回给数据。

九、xunsearch与sphinx的比较

9.1、共同点：

两者都可以基于MySQL，都是基于C/C++开发的。Xunsearch是国内开源团队基于国外的Xapian，所有有些是直接基于Xapian和Sphinx的比较。

9.2、区别：

9.2.1、单一索引最大记录：Sphinx: 1亿条记录

建立索引的速度：

Sphinx: 100万条记录/3～4分钟，1000玩条记录/50分钟内

Xunsearch: 1万条距离/4.14分钟

9.2.2、查询速度：

Sphinx: 1千万条记录下为0.x秒（毫秒级）

Xunsearch: 100万条记录为0.5秒

9.2.3、分布式搜索：