搜索引擎工作原理

搜索引擎工作原理: 爬行和抓取------>预处理------>排名

爬行和抓取:

1,是通过蛛蛛程序来实现的,蛛蛛主要是通过链接来抓取所有页面的.

所以要想让蛛蛛尽量的抓取页面,必须要吸引蛛蛛(网站优化)。

2,为了避免重复爬行和抓取网址,搜索引擎建立了一个地址库用来保存已经抓取的页面

地址库中的url 大多数是蛛蛛获取到的,当然也有一些是通过提交网址的

(不过这样可能没什么用因为蛛蛛不抓取的,说明权重比较低)

3,文件存储,每个url 都有对应的文件id,该文件用于保存抓取到的内容

预处理:

1,提取文字,(html格式标签,js 这些是没法用于排名的内容的)

2,中文分词,有两种方法一种是基于词典匹配的,另一种是基于统计的(一般两种都是结合着用的)

比如 :高效减肥 ,词典匹配高效   减肥 都可以,统计匹配就 高效减肥

3,去停止词: 什么 的 了 地 啊哈  这些搜索引擎在索引页面的时候是会去掉的

4,消除噪声:那些无关紧要的内容(排名是不会使用噪声内容的)

5,去重:搜索引擎很不喜欢同样的内容出现在两个不同的网站上

6,索引:经过上面的步骤后,搜索引擎程序就可以提取关键词了,按照分词程序分好的词

把页面转换为一个关键词组成的集合,同时记录每个关键词在页面上的出现频率,密度等

排名:

1 指令处理:查询词完成分词后,搜索引擎的默认处理方式是在关键词之间 先使用“与”逻辑 后使用“或”。

比如用户输入“减肥方法” 程序分为”减肥“和“方法”和“减肥方法”,那么有包含这两种的就优先匹配,其次在匹配单个的

2  相关性计算

词频及密度,关键词的位置及形式(title h1 黑体等)关键词距离(减肥和方法不要写的太远了,距离越近搜索引擎会认为关系更大的)


  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值