搜索引擎4大系统

最新推荐文章于 2024-08-05 18:25:58 发布

TerryWater

最新推荐文章于 2024-08-05 18:25:58 发布

阅读量691

点赞数

文章标签：搜索引擎服务器 url 多线程 html tcp

搜索引擎4大系统：
下载系统
网页分析
建立索引
查询服务
1
http协议：客户端和服务器建立一条tcp链接进程，然后发出请求并读取服务器进程的应答，然后关闭链接结束一次响应，返回的内容包括一个头部信息，和主题部分
2
记录未访问和已访问的URL：未访问表，已访问表，避免重复收集
3
域名和IP问题：一对一，一对多，多对多，不能单方面的用ip来判定是否是同一个站点，内容重复的站点搜索引擎只会选择其中一个作为主站来抓取。
4
网页的重要度：
优先抓取：网页如度大，被引用的多
网页的上层页面入度大
网页的镜像度高
网页的目录深度小
网页权重公式：网页的权重=网页的入度，上层网页的入度，网页的镜像度，网页的目录深度。
5
网页收集的分布式系统，多台服务器多线程同时抓取，还要确保不重复抓取来提高收集效率，种子站点开始的深度优先和广度优先为的是先收集重要页面的信息。
6
链接的权重，每个URL都有一个初始值，如果URL中出现了？&，等都会降低权值。
搜集信息的类型：html，pdf，doc。

7
稳定和高效的下载系统是一个搜索引擎提供服务的根据，搜索引擎能否做到高时效性，就要看他的下载系统策略和下载系统的性能了，对于商业搜索引擎来说，是非常重要的！

1
网页分析的必要性:
网页的保存格式
共同点都是为了提高效率
每个网页中什么地方最重要？
举个大家都能理解的例子。
2
好刚用在刀刃上
搜索引擎的权重板块的提取。
什么位置最不重要
什么样的网页最重要？

3
分析系统
搜索引擎不是人，看不懂网页
解决方法：切词
高频无关次：没有什么表达意义的词
集中切词方法，正向最大匹配，逆向最大匹配，最小化切词
将网页转化形态
变成网页到词集合的过程，变成词，才能查询索引，返回结果。
都是为最后的查询服务，服务的

4
网页消重
网页消重的必要性
如何判断文章是谁原创的。
    根据这个文章第一次收录的时间，
    链接，引用文章的人把原来的链接给加上了！
    采集别人的网站，然后修改，然后成为原创
少量的重复是允许的，特别是门户站

5
噪音板块
什么是噪音板块？
为什么要消除噪音板块？
噪音板块一般出现的位置
过滤噪音板块，留下真正意义上的内容。

6
建立索引
通过上面的分析，接下来就是要建立索引了