说说sphinx和搜索一些思考

如果说得不对还请指正:

Sphinx是一个类似Lucene东东,同样没有爬虫部分。

源代码是c++写得,国内很多人一说到高效高速就想到c++,我也不会C++(为什么说也呢,因为我用lucene写过搜索,但不会java),但不耽误我看代码,代码写得很漂亮,有兴趣的可以读读,一齐交流交流。

索引部分是将内容分词按照指定格式存储。锁有两个,一个是文件锁,另一个是mlock。
排序算法和某书说得有类似,但有所不同。

搜索部分先将索引必要信息拉到内存,然后进行搜索一系列动作(过滤,排序等),最终找到对应的id数组,然后一个个的到数据库(现在支持mysql,pgsql)拿。(lucene的必要索引信息似乎比它大多了,从我们应用的角度来看,感觉可以缩减索引,有兴趣的可以到lucene的wiki上找pruning)

sphinx是通过一个叫searchd,感觉就是个daemon来提供对外服务,技术参考管道,进程

性能很强,中文分词支持目前比较稀缺,只有一两个开源的。

有时候我觉得分词随便哪个都行,只要能找到。快慢也一般,又不是做百度,google,只要不离谱也能承受。因为我觉得最关键还是搜索结果的排序,就是如何让更优的信息能排在最前面。

想从中文词语之间来分析相关性,我觉得还是歇歇把,理论和实践差得太远了。字典也许更可靠点,但这意味着中文分词要完全重写。
垂直搜索从业务角度来分析每条信息的重要性,这个还比较靠谱,问题是每行每业都有差别,很难统一,只能根据业务来定制。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值