搜索引擎的工作原理

搜索引擎的工作原理可以大致分为三步:

1, 抓取网页

利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。

2,建立索引

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

3, 搜索排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

理解搜索引擎的工作原理能帮助读者理解搜索引擎是如何对网页进行排名的,但是网页是如何被用户找到的就完全是另外 回事了。这里要考虑到人与人之间的差别, 搜索对不同的人来说可能有着完全不同的意义。例如我的一位朋友,他用平时人与人之间谈话的语句作为搜索词在互联网上进行搜索,甚至将他的问题一字不变地输入搜索引擎,这称为自然语言。而另一位接受过搜索技能培训的同事使用的则是布尔搜索技术:在构造搜索词时,她使用了一种 完全不同于日常说话的语法。两个人得到的搜索结果肯定不会相同,哪怕他们使用的是同一个搜索引擎也是如此

以上,就是搜索引擎工作原理的全部内容,希望对想要学习搜索引擎的同学有所帮助。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值