搜索引擎
文章平均质量分 76
appoFeng
#$%$^
展开
-
搜索引擎的难点及工作原理
搜索引擎的难点包括如下几点: 1) 是否支持并发的爬取数据,如果要并发,要保证所有采集器能合作采集,不会出现重复采集的情况. 2) 采集的数据还要有一个排重的过程. 只需要采集一个网站更新的数据 Webjx.Com 3) 对于需要cookie数据的网页如何采集的问题,部分网站需要通过cookie数据登陆网站 4) 自动通过识别码的验证 Webjx.Com 5转载 2008-01-28 16:54:00 · 1163 阅读 · 0 评论 -
Google网页级别技术解密
1.什么是PageRank 2.PageRank的决定因素 3.如何查知PageRank 4.PageRank的重要性 5.Google的前1,000项搜索结果 6. PageRank与其它影响网站排名因素间的区别 7.非PageRank因素阙值 8.使用阙值推知两种排名策略的价值 9. PageRank的计算 一:什么是PageRan转载 2008-01-28 17:18:00 · 906 阅读 · 0 评论 -
Google PageRank排名新算法
第一部分: 最新消息! Google的主要变化 Google的主要变化始于2003年 11月的16号,从那时候起,网上论坛就开始对此议论纷纷并产生了形形色色的推测。这种更新对一些人是坏消息,而对另外一些人却是好消息(不过大多数猜测 都来自于那些认为这是坏消息的人)。Google对其变化只字不提,当然我们也别指望它会说点什么。因此,这篇文章代表了我个人的部分推测,希望它至少为 读者您提供了一些“转载 2008-01-28 17:18:00 · 666 阅读 · 0 评论 -
关于PR更新的思考
从佛罗里达更新到现在也有四个月左右了。据我以我网站的观察,PR更新了两次,而这两次的PR更新规则也与hilltop算法的原则非常吻合。大家可以由 于联想到什么或者会得到相应的结论了吧。下面是我对这次PR更新的一些观察,希望能对大家有一点启示。 1、PR更新前收集数据的时间: 对于这个时间的把握不可能很准确,只是一个大概的推测,不过还是有现实根据的。从对我个人及公司的几个网站的转载 2008-01-28 17:13:00 · 651 阅读 · 0 评论 -
如何提高网站的GooglePR值
Google大受青睐的另一个原因就是它的网站索引速度。向Google提交你的网站直到为Google收录,一般只需两个星期。如果你的网站已经为 Google收录,那么通常Google会每月一次遍历和更新(重新索引)你的网站信息。不过对于那些PR值(Pagerank)较高的网站, Google索引周期会相应的短一些。 Google的索引/重新索引周期比大多数搜索引擎要短。这就允许网站管理员可以对网站转载 2008-01-28 17:13:00 · 658 阅读 · 0 评论 -
【搜索引擎三大定律】
搜索引擎走到今天,已经是一个结束过去,开辟未来的时候了。为了说清楚我所讲的第三定律,我们先来回顾一下第一和第二定律。 第一定律 相关性定律 听起来象是一篇学术论文,的确,就连第一,第二定律的提法以前也没有过,但是第一,第二定律的内容确早已在业界和学术界得到了公认。其实这第一定律是早在 互联网出现之前就被学术界广泛研究过的,那就是所谓的相关性定律。这个领域那时叫情报检索,或信息检索,也有转载 2008-01-28 17:12:00 · 835 阅读 · 0 评论 -
搜索引擎中的Sandbox 效应
1. 何谓sandbox效应? Sandbox仅是发生在google排名中的一种 现象。一般认为,sandbox效应是发生在距今最近的Google算法更新后(即业界称为“Florida” 与 “Austin” 更新)。具体是这 样的,google会给新网站额外加上一定的分值,使得新网站的排名迅速上升(某几种目标关键字)。随后的一段时间里(大概是一到三、四个月),网站的排 名就会逐渐下降,有转载 2008-01-28 17:10:00 · 589 阅读 · 0 评论 -
中文搜索引擎技术揭密:系统架构
作者Winter 首发于e800.com.cn 【e800.com.cn 编者按】互联网发展的今天,一方面离 不开其开放、共享的特性带给人们的全新体验,另一方面也离不开数以亿计的为其提供各类丰富内容的网络节点。互联网被普及前,人们查阅资料第一想到的便是拥 有大量书籍资料的图书馆,到了今天你怎么想?或许今天的很多人都会选择一种更方便、快捷、全面、准确的方式——互联网。你可以坐在家里轻点几下鼠标就查转载 2008-01-28 17:01:00 · 646 阅读 · 0 评论 -
中文分词和搜索引擎
作者: Winter 搜索引擎,上网的人基本上都不陌生了,CNNIC的第17次《 互联网调查报告》 显示,使用搜索引擎服务的网民,仅次于电子邮件。中文分词,估计了解的人并不多,毕竟太技术,太底层。但中文分词是中文搜索引擎系统中的非常重要的模块, 这里之所以强调是中文搜索引擎,是针对英文搜索引擎来讲,因为对于英文来说,空格代表词和词之间的分隔,也就不存在分词问题。和中文搜索引擎类似还有日 文、韩转载 2008-01-28 16:56:00 · 851 阅读 · 0 评论 -
Google检测无效点击的几种方法
我们经常听说 Google 有一套诡异的机制来检测无效点击,用来对付作弊者,但Google 到底是怎么做到的呢?这篇文章归纳出 Google 用之以判断广告点击有效与否的方法。通常来说,Google不会马上封掉你的帐户,他们会把你的帐户标记起来并进行特别监视,有时候还会给你寄警告信。1. IP地址任何人都不得不承认这个简单直接的方法。如果点击广告的人跟登录你 AdSense 帐户的转载 2008-07-21 16:20:00 · 1700 阅读 · 0 评论