搜索引擎及相关
文章平均质量分 89
johnny_hg
这个作者很懒,什么都没留下…
展开
-
分布式计算开源框架Hadoop介绍
作者 岑文初 发布于 2008年8月4日 上午2时15分 关键字:网格计算,集群与缓存,Hadoop在SIP项目设计的过程中,对于它庞大的日志在开始时就考虑使用任务分解的多线程处理模式来分析统计,在我从前写的文章《TigerConcurrent Practice--日志分析并行分解设计与实现》中有所提到。但是由于统计的内容暂时还是十分简单,所以就采用Mem...原创 2008-08-07 14:21:18 · 120 阅读 · 0 评论 -
如何查看网站被百度或者google收录多少网页?
在google或者百度的搜索框输入:site:www.iteye.com2008-08-09 02:16:04 · 433 阅读 · 0 评论 -
spam搜索引擎垃圾技术的统称
在搜索引擎优化相关的文章中中经常遇到“SPAM”一词,不过在搜索引擎营销中所说的SPAM是专门针对那些欺骗搜索引擎的信息。搜索引擎垃圾技术是利用不道德的技巧去提高自己搜索引擎上的排名。不诚实的网站管理员就是利用这样的手段去欺骗搜索引擎从而获得较高的排名。这样的做法会让你的网站在短期内排名得到提高,但是后果却是十分严重的。有可能导致搜索引擎把你的网站从他的数据库里永久删除! 以...原创 2009-07-24 13:53:57 · 352 阅读 · 0 评论 -
实时检索系统Zoie实现分析
实时检索系统Zoie实现分析 实时检索的核心原理通常的检索系统中,建索引和查询是分开的,即建索引是离线的,新的索引会以一定频率(比如每隔5分钟)供查询端使用。对于一些站内检索来说,这种延迟性使得:不需要建索引的速度足够快(只要能跟的上提交频率就行),查询的效果不必完全精确。而要取得实时检索效果,典型的思路是:建索引和查询是在一个进程内,这样每一次的添加索引都会被下一次的查询...原创 2010-05-11 14:19:37 · 134 阅读 · 0 评论 -
Solr的扩展(Scaling)以及性能调优
当你的索引数量越来越大,你会发现你的搜索响应时间变得更慢,索引新内容的时间也会越来越长,那么,到了做出一些改变的时候了,幸运的是,solr很好的考虑到了这些情况,你只需要改变你的配置就可以了。以下将从三个方面讲述solr的scaling: l 调优某个Solr服务器(Scale High) 通过缓存和内存管理优化某个单实例的...原创 2011-11-04 20:16:51 · 719 阅读 · 0 评论 -
自定义评分器Similarity提高搜索体验
http://www.gbsou.com/2011/11/01/8048.html score(q,d) = coord(q,d) · queryNorm(q) ·∑( tf(t in d) · idf(t)2 · t.getBoost() · norm(t,d) ) 具体可以查看相关文章:http://...原创 2011-11-04 20:35:44 · 437 阅读 · 0 评论 -
Apache Solr schema.xml及solrconfig.xml文件中文注解
schema.xml位于solr/conf/目录下,类似于数据表配置文件,定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。name:就是这个FieldType的名称。class:指向org.apache.so...原创 2011-11-04 20:39:42 · 285 阅读 · 0 评论 -
Apache Solr 实现去掉重复的搜索结果
打上SOLR-236_collapsing.patch补丁,实现 solr 搜索结果折叠、除去重复的搜索结果,可以实现类似google搜索结果的“站内的其它相关信息 ”。solr collapsing patch 是用 hash 某个字段来实现折叠重复结果的。下面我演示下应用这个补丁并搜索试用下。 其实 solr 上已经有了这功能的实现:solr 1.3 collapse pat...原创 2011-11-04 20:40:20 · 892 阅读 · 0 评论