全文搜索
iteye_3459
这个作者很懒,什么都没留下…
展开
-
如何选择中文分词
目前全文搜索用到的中文分词,大都是开源和自己开发相应的算法很多,到底选哪个来写,各有各的看法。我分享下我做过的供大家参考没用过词性的中文分词,因为我的业务用不到。用过的大部分开源的中文分词,主要是基于字典对纯数字,纯英文,纯中文,混合进行比对,效率看字典好坏,其字典设计,内存使用,比对次数,扫描文章次数等。适合没有明确搜索关键词的全文搜索,其目标是搜索到。缺...原创 2012-07-11 11:25:41 · 141 阅读 · 0 评论 -
搜索结果排序
利用开源做的搜索结果排序目前主要两种计算方式:索引时做好了score计算和查询时动态计算。各有优缺点,适合不同业务。搜索结果排序需要考虑的点比较多,比如设定不同字段不同比率来计算score,这些字段的来源是否一致,其包含的信息多大,其如何存储。如果需要动态调整,那么其改动成本多大(人员,硬件,时间,金钱等)?如果多台机器,那么是否需要mapreduce,结果是否cache,cache更新,...原创 2012-08-28 13:51:01 · 242 阅读 · 0 评论