coreseek 索引更新机制

版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明
http://fatal.blogbus.com/logs/45153968.html

= =,昨晚太晚睡觉,所以日记又没写。结果现在又不太记得昨天做了啥了。

还是先说今天吧。

今天的时间都花在coreseek的索引更新机制上了,原来是每隔一分钟更新增量索引,每天再重建一次索引。sph_counter 中存放区分主索引和增量索引的maxid。现在的方法,依旧是每分钟更新增量索引,但是重建索引改成合并,将增量索引合并到主索引中,并更改sph_counter中的maxid值,清空增量索引。搜索则都是同时从两个索引中搜索。

这个可是折腾了大半天才得出来的结果,合并索引不难。

其他两个都有问题,先说下今天碰到的情况。

先是更新sph_counter的maxid值,这个时候还没有考虑到清空增量索引,所以合并索引这步暂时是没有问题的,而合并索引后,再更新增量索引,还会得到第一次建立索引后的所有增量,因为没有改变maxid,后来在coreseek.cn上看到有人提到sql_query_post_index,可以更新增量索引后改变maxid值,于是在增量index中加入了这个选项,= =开始是手工更新增量索引,合并到主索引,这两步一起做,没有问题,后来用crontab才发现,增量索引每更新一次,前面的记录都会丢失,因为这些记录还没有合并到主索引就被更新的增量索引覆盖了。这个方法行不通,后来问了神仙,= =,原来脚本也可以更改数据表中的值,请教了一下,此问题解决。说完另一个问题,一起贴最终的脚本内容。

合并索引后,清空增量索引,到底怎么个清空法是个问题,开始的想法是直接删除增量索引文件,删除后加--rotate,更新增量索引会出错,出错信息好像是没有增量索引的文件吧。后来听神仙说,要去掉--rotate,没有出错,可是后面的每分钟更新增量索引会有问题,看了一下索引文件,只要加了--rotate的,生成的增量索引文件是delta_new.*,这样,虽然增量索引更新成功,却搜索不要更新的记录。如果不加--rotate,索引文件正常,但是依旧搜索不到新记录。后来不知怎的一想,不用删除索引文件,因为前面的maxid值已经改变了,直接更新增量索引不也可以么,试了一下,果然。

下面整个的贴一下代码。

1、首先是建立索引
/usr/local/coreseek/bin/indexer --all --config /data/coreseek/conf/post.conf

2、启动守护进程
/usr/local/coreseek/bin/searchd --config /data/coreseek/conf/post.conf

3、+记录

4、更新增量索引,这个写在脚本里,因为需要每分钟更新。
文件名:/data/coreseek/sh/build_delta_index.sh
内容:/usr/local/coreseek/bin/indexer post_delta --config /data/coreseek/conf/post.conf --rotate

5、合并索引,这个也要写在脚本里,每天合并一次
文件名:/data/coreseek/sh/build_main_index.sh
内容:/usr/local/coreseek/bin/indexer --merge post_main post_delta --rotate --config /data/coreseek/conf/post.conf  //合并索引
/usr/local/mysql/bin/mysql -hhostname -uusername -ppassword -Ddbname -e 'REPLACE INTO sph_counter SELECT 1, MAX(PostId) FROM Post' //更改maxid
/usr/local/coreseek/bin/indexer post_delta --config /data/coreseek/conf/post.conf --rotate >>/var/log/coreseek/deltaindexlog //重建增量索引

再贴下crontab规则
*/1 * * * * /bin/sh /data/coreseek/sh/build_delta_index.sh
30 1 * * * /bin/sh /data/coreseek/sh/build_main_index.sh
这个基本上是没有问题了,冏,要是再有问题,我真不想碰了。

昨天跟今天的其他时间应该是在写demo吧,= =,不想自己写页面,直接从coreseek.cn上扒下来的,居然是table,现在基本实现的功能,高亮这块还要做一下,真想说,sphinx真是个BT!搜索结果只返回id,BuildExcerpts这个用来产生文档片段的方法,我就更不说啥了。刚看文档看到UpdateAttributes,我居然还没处理,冏啊冏。

这两天差不多都干这些了。文档还木有写,木时间了,分词的话,只能用词库了。

------------------------------------------------------------------------------------------------

同时添加关于mmseg说明,mmseg分词库作用是将一段中文句子根据词库中已有的词语切割,如:"中华人民"会被切割成"中华"和"人民"(前题是mmseg词库中有"中华"和"人民两个词)

如果希望将一个句子按照你想的结果切分,就需要在mmseg词库中添加.比如希望"好你走起"被分成"好你"和"走起",就应该在mmseg词库中添加这两个词,如下


2.将生成的符合格式要求的词表粘贴到原词表unigram.txt末尾,保存为unigram_new.txt,并拷贝到mmseg所在的目录下; 

3.生成新的uni

    /usr/local/mmseg3/bin/mmseg -u /usr/local/mmseg3/etc/unigram_new.txt

    就会生成新的词典文件unigram_new.txt.uni 

4.将新的unigram_new.txt.uni 替换原有的uni.lib
    mv /usr/local/mmseg3/etc/unigram_new.txt.uni /usr/local/mmseg3/etc/uni.lib

5.重新建立索引库、重启searchd

    关闭searchd
      /usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/c.conf --stop

     重建索引
     /usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/c.conf --all 
    启动searchd
    /usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/c.conf  

    搜索试下就出来了。

注意:需要重启searchd


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值