rails全文索引方案讨论

http://groups.google.com/group/shanghaionrails/browse_thread/thread/41362ff381b4b1e4?pli=1



目前Rails网站全文检索、中文分词一般都用什么方案?




 共 12 个帖子 - 全部折叠  -  将所有内容翻译成中文(简体)  -  



HoLin 
查看个人资料  
 更多选项 7月12日, 下午9时24分

目前Rails网站全文检索、中文分词一般都用什么方案了? 
Google了一下,都是很老的帖子了,好像都不是很好。Javaeye后来也转向lucene了 

有没有Ruby的?简单点,好配置一点 :) 

-- 
Regards 
HoLin 

    回复     回复作者      转发         






讨论主题已更改为“回复: [shanghaionrails] 目前Rails网站全文检索、中文分词一般都用什么方案?" 作者:Jason Lee






Jason Lee  
查看个人资料  
 更多选项 7月12日, 下午9时25分

ActiveRecord 的话,可以用 Thinking-sphinx 这个 Gem + Coreseek,很好用的 

------------------------------------------------------ 
Jason Lee 
http://huacnlee.com 

在 2011年7月12日星期二,下午9:24,HoLin 写道: 

    回复     回复作者      转发         






讨论主题已更改为“目前Rails网站全文检索、中文分词一般都用什么方案?" 作者:G.zhen.ning






G.zhen.ning 
查看个人资料  
 更多选项 7月12日, 下午9时27分

thinking-sphinx,作者说迟点会支持国人改sphinx的coreseek*.*** 

2011/7/12 HoLin <holin...@gmail.com> 

    回复     回复作者      转发         






讨论主题已更改为“回复: [shanghaionrails] 目前Rails网站全文检索、中文分词一般都用什么方案?" 作者:Jason Lee






Jason Lee  
查看个人资料  
 更多选项 7月12日, 下午9时28分

本来就支持的啊,很容易就搞上去了 

------------------------------------------------------ 
Jason Lee 
http://huacnlee.com 

在 2011年7月12日星期二,下午9:27,G.zhen.ning 写道: 

    回复     回复作者      转发         






讨论主题已更改为“目前Rails网站全文检索、中文分词一般都用什么方案?" 作者:Jerry.S






Jerry.S 
查看个人资料  
 更多选项 7月12日, 下午9时31分

Thinking-sphinx. + coreseek 
+1 

发自我的 iPhone 

在 2011-7-12,下午9:27,"G.zhen.ning" <g.zhen.n...@gmail.com> 写道: 

    回复     回复作者      转发         






HoLin 
查看个人资料  
 更多选项 7月14日, 下午11时21分

用了 Thinking-sphinx. + coreseek + rails3 

Thinking-sphinx取不到sphinx的版本信息,需要修改一下 
Thinking-sphinx。可能是用coreseek返回版本信息不一样的缘故。 

    回复     回复作者      转发         






Michael He  
查看个人资料  
 更多选项 7月15日, 下午2时00分

试试这个,如果你不用innodb的话。 
http://code.google.com/p/mysqlcft/ 

2011/7/14 HoLin <holin...@gmail.com> 

-- 
Best 
Michael He 
    回复     回复作者      转发         






Quake Wang 
查看个人资料  
 更多选项 7月15日, 下午4时04分

推荐一下Sunspot: 
http://outoftime.github.com/sunspot/ 
他搜索服务器用的是solr(基于Java的Lucene) 

Regards, 
Quake 

2011/7/12 HoLin <holin...@gmail.com> 

    回复     回复作者      转发         






Michael He  
查看个人资料  
 更多选项 7月15日, 下午4时35分

2011/7/15 Quake Wang <quake.w...@gmail.com> 

> 推荐一下Sunspot: 
> http://outoftime.github.com/sunspot/ 
> 他搜索服务器用的是solr(基于Java的Lucene) 

支持中文么? 
自动更新索引么?不需要定时任务的。 
--  
Best  
Michael He  
    回复     回复作者      转发         






Quake Wang 
查看个人资料  
 更多选项 7月15日, 下午4时48分

默认支持的中文是单字分词,你可以使用mmseg分词算法: 
http://code.google.com/p/mmseg4j/ 
默认是通过ActiveRecord的create/update/destroy callback来更新/删除索引。 

Regards, 
Quake 

2011/7/15 Michael He <hlxw...@gmail.com> 

    回复     回复作者      转发         






yanqing pei  
查看个人资料   翻译成中文(简体)
 更多选项 7月16日, 下午10时38分

coreseek thinking sphinx 

    回复     回复作者      转发         






张光宇 
查看个人资料  
 更多选项 7月19日, 下午12时39分

通过配置sphinx的charset_table和ngram_chars, 足可以对付绝大部分的中英文搜索了。 

如果想用更高级的分词算法,coreseek就派上用场了。代价就是需要编译一个修改过的sphinx,索引速度下降的厉害 

我把我用到的thinking-in-sphinx的config/sphinx.yml文件放上来了: 
rake ts:rebuild即可 
https://gist.github.com/1091302 

-- 
Best Regards 

张光宇 
msn: samwisezh...@hotmail.com 


posted on 2011-08-17 23:02  lexus 阅读( ...) 评论( ...) 编辑 收藏

转载于:https://www.cnblogs.com/lexus/archive/2011/08/17/2143754.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值