SEO必读:搜索引擎的基本知识及其工作原理(转)

刚才闲逛,南京SEO博主看到这篇文章,把基本知识讲的很全面也很透彻,故转到本博和大家分享。

在我刚接触SEO的时候,我曾经有去仔细的观察过搜索引擎。一方面做SEO的本身就是靠着搜索引擎而活,我们必须得把这位大哥给伺候好了;再一方面是想看看他是如何工作的,他是如何实现几万个页面能在一秒钟内做到有序排名。在今天其实对于这些问题都已经有了一个比较清晰的概念。

想在某个搜索引擎具有一定的排名,光知道网上的那些SEO基础那完全不够。我也有遇到过一些朋友把自己的站排名做上去了,但他不知道是怎么做上去的。他告 诉我的是做做外链,更新更新文章就上去了。我们不能排除有这种可能性毕竟关键词的竞争度都是不一样的。但我遇到过最多的还是做上排名了,但很快又掉下来 了,根本不知道如何去保持这个排名。废话也不多说了,跟着何涛的思路一步一步往下走。

 

  搜索引擎的一些基本抓取知识

首先我们得提一个SEO的专有名词“蛛蛛”。这个也是每个搜索引擎用来爬行和访问页面的一个 程序,也叫机器人。这里我为蛛蛛这个名词做一下解释:在我看来,之所以把他称为蛛蛛。是因为蛛蛛都是顺着网上的链接 代码来访问 互联网上的每个 网站,而且每个网站的这些链接其实就像一张非常复杂的网,蛛蛛要做的就是在这张网上抓取信息,这个形式非常类似蛛蛛这个动物,所以也就有了一个形像的比喻。

从蛛蛛这个名词我们是否已经有点感悟了呢?原来搜索引擎的一些必须要更新的 数据库 与排名顺序都是要靠这么一个程序来抓取、检索才会在定期有个更新。那么也就是说:想让我们的网站有排名,是不是一定得先让搜索引擎收录我们的站,想让搜索 引擎收录,是不是又先得让蛛蛛来爬我们的站。其实这里面就会有一个过程,如何让蛛蛛爬行我们的网站这里我也大概的说一下:

一般来说我们把这个方式叫做“链接诱饵”。也就是说通过某种手段吸引蛛蛛来爬行我们的网站。常见的比如去把我们刚做好的网站提交给搜索引擎、通过在高权重的网站发布链接、通过搜索引擎的种子站来做引导等,这些都是比较好用的办法。

我们再来看一下蛛蛛他的一些习惯,好让我们更好的掌握它,从而不断的给他喂食,培养蛛蛛访问网站的速度与习惯从而提高网站的权重获得一定的排名

说到蛛蛛习惯我们不得不得一个概念“深度优先、广度优先”。前面我们已经有说到蛛蛛最终还是个程序,能牵引他爬行的是网站与网站之间的链接。大家有没有印 象在看一些SEO基础教程的时候,都有说到一个网站的结构一定要树形,而且目录级别不要过深。其实这点的说法就来源于深度优先与广度优先。

深度优先:比如蛛蛛访问一个网站的链接,他就会一直顺着这个链接一直往下爬,直到前面再也没有链接的时候然后再返回第一个页面,沿着另外一个链接再向前爬。好比蛛蛛访问我们的网站首页,从它的一个爬行习惯必定会是从导航里的一个栏目一直往下爬行,可能爬到我们的最终页就再次返回。

广度优先:这个与深度优先有点不一样,这个方式的表现形式当蛛蛛在一个页面上发现多个链接的时候,他会先把第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向下一层。下面我给大家看张图就会明白了:


其实在我们现实中,蛛蛛他往往是把广度优先与深度优先相结合来使用的,这样就可以尽可能的照顾到多的网站(广度优先),也能照顾到一一部分网站的内页(深度优先)

有了这样的数据抓取原理,搜索引擎必定会把这些通过蛛蛛抓取回来的信息首先做一个初步的整理与存储,并会对每一个信息给予特定的编号。

 

  搜索引擎对索引条目的处理

我们都知道蛛蛛它毕竟还只是个程序而已,他做的工作不会通过网站的前台来分析一个网站内容,而是通过网站的代码来进行抓取信息的。而在网站的源代码里我们会看到好多html、js等一些程序的语句。而蛛蛛他只会对里面的文章感兴趣,也就是说他只提取 网页里的一些文字。有些朋友可能就会说到了,那我们还写什么代码?代码不是起不到作用了吗?

其实不是这样的,在网站的标签优化中我们都知道比如H标签、nofollow标签、alt标签等。这些标签还是能在蛛蛛抓取我们网站信息的时候起到强调与 修饰作用。比如遇到图片的时候,但蛛蛛并不能识别图片里的信息,那么我们就会考虑去设置一下alt标签来帮助搜索引擎来识别图片里的信息;为了让网站的一 些权重不分散,我们在必要地方给链接加上了nofollow。

既然搜索引擎蛛蛛是对网站文字特别感兴趣,那对于中文SEO优化来说。是不是会有个概念性的东西在这里面,那就是“分词”

最简单的一个例子,比如我们中文里面的“网站优化”这四个词,在 百度搜索引擎数据 词库里,其实是把网站与优化两个不同的词分开来存放的。当 用户来搜索网站优化这个词的时候,搜索引擎的步骤也就是把网站这个词库里的网页信息与优化词库里的信息做一个交集来检索与排名。这点后面还会有说到。

在说到分词的时候我们不得不提一个东西,那就是我们如何来看网站一个分词情况:在百度搜索引擎里面搜索“宁波何涛SEO”在出面的搜索结果里面,我们看下网站的那个快照如图



我们是不是很容易的看到在快照里的显示结果百度把这个词分成了三块不同背景色的词组。这个只是其一,我们也可以在百度的搜索结果里看到只要是我们搜索的词,都会有标红的情况。这个也是分词的另一种表现形式。

有些朋友可能会说了,你说的那些是个别情况,我们在现实过程去搜索的词远远比这个复杂,而且可能还会有一些语气助词等。做为越来越完善的搜索引擎而言。他 们其实也早就考虑到了这个问题,首先是因为这些个语气词在搜索过程中实际上是起不到任何作用的。在搜索引擎进行预处理的时候,他们也会把这些词给过滤。一 方面是减少检索负担,另一方面也是为了增加内容的准确度。

在搜索引擎把蛛蛛抓取来的信息进行归档之前,还有个程度是必不可少的,他必须得做内容的重复审核。一重意思:搜索引擎必须把同一个网站里的数据进行删选。 有一种情况:比如有人在搜索我的网站宁波SEO的时候,在排名结果中第一页会出现我们的首页与内容页的可能性。其实做为一个成熟的搜索引擎来说,这种情况 是要避免的。因为这样的内容对用户的用处不大,就相当于同一个内容给排了两次。第二重:对于不同的网站而言,因为 网络上的内容那是成千上万的。这里面就会出现两个不同的网站,但内容相同的情况。就是我们常说的网站内容转载的问题,搜索引擎也会考虑到重复的信息进行删选。

有了上几步的重重审核,接下来的就是得做个有效的数据整理。我列两张表给大家看下就明白了:

正向索引


文件ID内容
文件1关键词1,关键词2,关键词7……关键词x
文件2关键词1,关键词7,关键词8……关键词Y
………………
文件N关键词6,关键词50,……关键词z


倒排索引


文件ID内容
关键词1文件1,文件2,文件10,……文件m
关键词2文件1,文件4,……文件n
……………………
关键词7文件1,文件2,文件8,……文件o


我简单的解释一下上面的表格里的意思:正向索引表格,也就是搜索引擎临时不能直接用于排名的数据表。这个里面他是按照文件来分配每个关键词的。也就是说主 键是文件。我们再换到第二张表来看,搜索引擎已经把关键词做为了主键,这也与我们搜索某个关键词来找自己想要的信息一样。我们可以发现:当用户搜索关键词 7的时候,这个时候搜索引擎就没有必要对每篇内容再进行检索,它只要做的就是从关键词的词库里面提取出文件1,文件2,文件8等。

至于这几个文件又是如何来排名的,请看下一节。

 

  搜索引擎是如何决定网站排名的

在搜索引擎工作原理的最后一节就应该提下搜索引擎的排名了。通过蛛蛛在网络上的信息抓取到存储,其实还是为了最终用户搜索某个关键词搜索引擎能提供他真正想要的内容。

在用户搜索某个词的时候,搜索引擎做的第一件事还是要对我们的词进行必要的分词,这个也是前面的文章里有提到的,这里面的原理还是一样。但在排名时的处理 中,搜索引擎会先进行一个交集的处理,我们都知道,搜索引擎的存储都是以词为单位进行存储。比如搜索宁波SEO,搜索引擎的词库里面先会去找宁波这个词所 包含的文件,再去找SEO相关的文件。然后进行一个交集的处理与删选。

在这个里面我们得特别提一下搜索引擎的拼写矫正的处理。我们可以在百度里搜索下宁波SEO培讯,看下百度的返回页面值。



我们可以清楚的看到百度会自动给一个链接的提示:您要找的是不是宁波SEO培训。先前也有朋友与我说过,在考虑做一些词的擦边球优化。大概的意思是这样 的:比如我们要做一个比较热门的关键词,但由于自身的能力问题,可能会考虑优化一些错别字的词就像我上面举的这个例子一样,其实在我看来,你这样的操作不 是说不行,在用户体验这一块那是相当差的。网站的转化率也高不到哪里去。

细心的朋友对于搜索引擎的一些排名显示页会提出疑问:网络上有那么多的页面在,难道百度搜索引擎在用户搜索某个词的时候都会把它给列出来吗?在百度搜索引 擎他最多只会列出76页左右的关键词排名结果。因为再多对于用户来说其实也不会有这方面的考虑,毕竟搜索引擎也会把最相关的数据排在最前面。

那么搜索引擎是通过什么样的形式来确定最终的一个关键词的排名呢?

首先我想最主要的还是我们关键词的密度问题。这个也是我们操作SEO经常会提起的一个话题,当然也会有在标题与描述标签里都没有出现过这个关键词反而有他的排名,这个后面也会有说到。对于关键词的密度还是那句话:不要过于去追求密度而忘了用户体验。

关键词的位置及表现形式。我们都知道网站的标题标签里面的权重相对较高,相比之下其它的条件都一样的情况下,在首页标题中有出现过某个关键词,排名相对而言会比没有要好。当然还会有其它的形式比如:加H标签,加黑等。

关键词的距离。在搜索结果页里面,我们会看到自己搜索的词会有标红的情况。但也经常会看到我们搜索的词都是分开去标红的形式出现。这里面给我们一个信息。就是我们在写网站标签与描述的时候,我们一定要考虑到用户的搜索与搜索引擎的分词。特别是百度。

网站的页面权重。这一点肯定是重点,说到权重他必定会有外链接数与质量的牵连,这个也是我们SEO会用心去做的一点。

 

  总结

从搜索引擎工作原理分析来看,做SEO懂搜索引擎那是必须的,但我们也从中发现了不少规律。搜索引擎在怎么变化,增加用户体验这一点是它永恒不变的。所以在操作网站SEO的时候,多为用户考虑,才会得到搜索引擎的认可。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值