coreseek 中文检索初探

本文档详细介绍了如何在Linux环境下安装和测试CoreSeek中文检索系统,包括下载CoreSeek,安装mmseg和coreseek,解决安装过程中遇到的问题,以及进行XML和MySQL数据库的中文搜索测试。
摘要由CSDN通过智能技术生成

官网:http://www.coreseek.cn。官网的说明是入门最好的资料。

1、下载coreseek
http://www.coreseek.cn/news/14/65/
2、安装
[SuperKKig@SuperKKig share]$ cd /usr/local/share
[SuperKKig@SuperKKig share]$ sudo mv ~/下载/coreseek-4.1-beta.tar.gz ./
[SuperKKig@SuperKKig coreseek-4.1-beta]$ cd coreseek-4.1-beta
##安装mmseg
[SuperKKig@SuperKKig mmseg-3.2.14]$ ./bootstrap
[SuperKKig@SuperKKig mmseg-3.2.14]$ ./configure --prefix=/usr/local/share/mmseg3
提示错误:config.status: error: cannot find input file: `src/Makefile.in'
通过网上参考资料,输入以下命令后就解决了:
[SuperKKig@SuperKKig mmseg-3.2.14]$ aclocal
[SuperKKig@SuperKKig mmseg-3.2.14]$ libtoolize –force
[SuperKKig@SuperKKig mmseg-3.2.14]$ automake –add-missing
[SuperKKig@SuperKKig mmseg-3.2.14]$ autoconf
[SuperKKig@SuperKKig mmseg-3.2.14]$ autoheader
[SuperKKig@SuperKKig mmseg-3.2.14]$ make clean
[SuperKKig@SuperKKig mmseg-3.2.14]$ ./configure --prefix=/usr/local/share/mmseg3
[SuperKKig@SuperKKig mmseg-3.2.14]$ make
[SuperKKig@SuperKKig mmseg-3.2.14]$ sudo make install
##安装coreseek
[SuperKKig@SuperKKig mmseg-3.2.14]$ cd ../cd csft-4.1/
[SuperKKig@SuperKKig csft-4.1]$ sh buildconf.sh
[SuperKKig@SuperKKig csft-4.1]$ ./configure --prefix=/usr/local/share/coreseek --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/share/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/share/mmseg3/lib/ --with-mysql
[SuperKKig@SuperKKig csft-4.1]$ make
[SuperKKig@SuperKKig csft-4.1]$ sudo make install

3、测试coreseek
[SuperKKig@SuperKKig csft-4.1]$ cd ../testpack
[SuperKKig@SuperKKig testpack]$ cat var/test/test.xml
[SuperKKig@SuperKKig testpack]$ /usr/local/share/mmseg3/bin/mmseg -d /usr/local/share/mmseg3/etc var/test/test.xml

输入上述命令后应该能正确显示中文,修改 etc/csft.conf的配置文件,将所有相对路径改成实际绝对路径
xmlpipe_command = cat /usr/local/share/coreseek-4.1-beta/testpack/var/test/test.xml
path = /usr/local/share/coreseek-4.1-beta/testpack/var/data/xml
charset_dictpath= /usr/local/share/mmseg3/etc/
pid_file = /usr/local/share/coreseek/coreseek-4.1-beta/testpack/var/log/searchd_xml.pid
log = /usr/local/share/coreseek/coreseek-4.1-beta/testpack/var/log/searchd_xml.log
query_log = /usr/local/share/coreseek/coreseek-4.1-beta/testpack/var/log/query_xml.log

[SuperKKig@SuperKKig mmseg-3.2.14]$ /usr/local/share/coreseek/bin/indexer -c etc/csft.conf --all
PS:如果出现ERROR: index 'xml': failed to configure some of the sources的错误提示,需要安装expat(xml解析库)的安装包,我是fedora 15,输入以下命令即可,并且安装完expat之后,需要重新编译coreseek:
[SuperKKig@SuperKKig testpack]$ sudo yum install expat-devel*
[SuperKKig@SuperKKig testpack]$ cd ../csft-4.1
[SuperKKig@SuperKKig csft-4.1]$ sudo make clean
重复 2、安装部分的##安装coreseek的部分即可
[SuperKKig@SuperKKig testpack]$ /usr/local/share/coreseek/bin/indexer -c etc/csft.conf –all
[SuperKKig@SuperKKig testpack]$ /usr/local/coreseek/bin/search -c etc/csft.conf 网络搜索

4、MYSQL数据库中文搜索测试
[SuperKKig@SuperKKig testpack]$ cd /usr/local/share/coreseek
[SuperKKig@SuperKKig coreseek]$ sudo cp ./etc/sphinx.conf.dist ./etc/sphinx.conf
[SuperKKig@SuperKKig coreseek]$ sudo vi ./etc/sphinx.conf
修改source 部分:
source document_content_src
sql_user = app
sql_pass = 12345 ###注意,密码不能有特殊符号,原来的密码是12345 %$#@! , ###建立索引报错:ERROR: index 'posts_content_index': ###sql_connect: Access denied for user ' ###app'@'localhost' (using password: YES) ###(DSN=mysql://app:***@localhost:3306/futureWeb_allan).
sql_db = test
sql_query_pre = SET NAMES utf8


修改index部分:
index document_content_index
source = document_content_src
path = /usr/local/share/coreseek/var/data/document_content_src
docinfo = extern
mlock = 0
morphology = none


# stopwords
min_word_len = 1
charset_type = zh_cn.utf-8
charset_dictpath = /usr/local/share/mmseg3/etc/
ngram_len = 0
html_strip = 0

导入数据:在mysql命令行中输入:
mysql> source /home/SuperKKig/example-chiese (主键为integer).sql


创建索引之前 先看看查询的守护进程是否存在
[SuperKKig@SuperKKig coreseek]$ sudo ps -ef |grep searchd
如果有记录,停止该进程(kill也可以)
[SuperKKig@SuperKKig coreseek]$ sudo ./bin/searchd -c /usr/local/share/coreseek/etc/sphinx.conf --stop
[SuperKKig@SuperKKig coreseek]$ sudo /usr/local/share/coreseek/bin/indexer --config /usr/local/share/coreseek/etc/sphinx.conf –all
索引创建成功后,开启查询的守护进程
[SuperKKig@SuperKKig coreseek]$ sudo /usr/local/share/coreseek/bin/searchd -c /usr/local/share/coreseek/etc/sphinx.conf
检索测试
[SuperKKig@SuperKKig coreseek]$ /usr/local/share/coreseek/bin/search -c /usr/local/share/coreseek/etc/sphinx.conf 我
输出结果
using config file '/usr/local/share/coreseek/etc/sphinx.conf'...

index 'document_content_index': query '我 ': returned 2 matches of 2 total in 0.000 sec

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SuperKKig

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值