搜索引擎4大系统

搜索引擎4大系统:
下载系统
网页分析
建立索引
查询服务
1
http协议:客户端和服务器建立一条tcp链接进程,然后发出请求并读取服务器进程的应答,然后关闭链接结束一次响应,返回的内容包括一个头部信息,和主题部分
2
记录未访问和已访问的URL:未访问表,已访问表,避免重复收集
3
域名和IP问题:一对一,一对多,多对多,不能单方面的用ip来判定是否是同一个站点,内容重复的站点搜索引擎只会选择其中一个作为主站来抓取。
4
网页的重要度:
优先抓取:网页如度大,被引用的多
网页的上层页面入度大
网页的镜像度高
网页的目录深度小
网页权重公式:网页的权重=网页的入度,上层网页的入度,网页的镜像度,网页的目录深度。
5
网页收集的分布式系统,多台服务器多线程同时抓取,还要确保不重复抓取来提高收集效率,种子站点开始的深度优先和广度优先为的是先收集重要页面的信息。
6
链接的权重,每个URL都有一个初始值,如果URL中出现了?&,等都会降低权值。
搜集信息的类型:html,pdf,doc。

7
稳定和高效的下载系统是一个搜索引擎提供服务的根据,搜索引擎能否做到高时效性,就要看他的下载系统策略和下载系统的性能了,对于商业搜索引擎来说,是非常重要的!



1
网页分析的必要性:
网页的保存格式
共同点都是为了提高效率
每个网页中什么地方最重要?
举个大家都能理解的例子。
2
好刚用在刀刃上
搜索引擎的权重板块的提取。
什么位置最不重要
什么样的网页最重要?

3
分析系统
搜索引擎不是人,看不懂网页
解决方法:切词
高频无关次:没有什么表达意义的词
集中切词方法,正向最大匹配,逆向最大匹配,最小化切词
将网页转化形态
变成网页到词集合的过程,变成词,才能查询索引,返回结果。
都是为最后的查询服务,服务的

4
网页消重
网页消重的必要性
如何判断文章是谁原创的。
    根据这个文章第一次收录的时间,
    链接,引用文章的人把原来的链接给加上了!
    采集别人的网站,然后修改,然后成为原创
少量的重复是允许的,特别是门户站


5
噪音板块
什么是噪音板块?
为什么要消除噪音板块?
噪音板块一般出现的位置
过滤噪音板块,留下真正意义上的内容。

6
建立索引
通过上面的分析,接下来就是要建立索引了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值