读书笔记:《SEO教程:搜索引擎优化入门与进阶》(1)——搜索引擎收录及排序的基础知识

搜索引擎对页面的收录

收录流程:
搜索引擎蜘蛛通过域名进入网站,通过首页涉及到的URL逐步深入地进行循环爬取,建立网页数据库。

每一个网页都会对应记录唯一的URL和此页面上的文字信息,然后对这些文字信息进行切词,建立关键词索引来迎合用户的搜索习惯;


页面收录方式:

深度优先 - 跟踪浅层页面中的某一链接逐步抓取深层页面信息,直至抓完最深层页面后才返回浅层页面跟踪另一个链接。用这种方式,搜索引擎可以抓取到网站上较为隐蔽、冷门的页面,就能更多满足用户的需求。

广度优先 - 首页是根节点,横向抓取页面。先从树的较浅层开始抓取页面,直至抓完同层次的所有页面后才进入下一层。因此重要信息要展示在层次较浅的页面上,如首页。

 

 

用户提交 - 把网站中页面的URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎即可通过该文件对网站中的页面进行抓取和更新。
搜索引擎一般会结合多种收录方式。

如何避免重复性收录?


搜索引擎会比较内容相近的页面,并且通过时间戳判断哪个是原创,哪个是转载,原创的权重要高一些。转载可能就不收录了。所以要提高页面权重,保证原创性十分重要!

页面排序的影响因素

1. 页面相关性
       页面相关性指页面内容与用户所查的关键字的接近程度,主要由关键字匹配度、关键字密度、关键字分布及关键字的权重标签等决定。
 
关键字匹配度
       页面中是否包含此关键字;关键字在页面中出现了多少次。<强调本页面关键字,合理分配页面关键字的数量和位置>
 
关键字密度

       根据关键字密度,搜索引擎可以判断页面中某关键字的词频是否合理,防止作弊。关键字密度是关键字词频与网页总词汇量的比例。

*这里忍不住吐槽,N年前好多页面都有“隐形文字”,文字颜色和页面背景色一样,ctrl+a之后页面极其壮观……

 
关键字分布
       指关键字在页面中出现的位置。一般在页面顶部出现的关键字分布值较高。
 
关键字权重标签
       可以使用HTML的方法来告诉搜索引擎哪些是这个页面要突出的内容。HTML标签分为“权重标签”和“非权重标签”,权重标签会影响页面的权重,常见的包括<b><h1>等,非权重标签包括<img><br>等。

页面相关性计算公式: 相关性=关键字匹配值+关键字密度值+关键字分布值+标签权重值

       我们可以通过优化页面的页面相关性来提高搜索排名,但搜索引擎还引入了一些外部不可控的因素对页面相关性进行综合评估。如链接权重与用户行为等。

2. 链接权重
       链接主要分内部链接和外部链接,搜索引擎认为,某一页面得到的链接越多(指向它),说明这个页面越重要。其中外部链接不可操控,因此外部链接在整个链接关系中占着更大的权重比例,是决定整个页面权重的最重要的因素。<可以多在其他站点发布相关消息和链接来提高外链权重,但最好与那个网站的主题有关,不然太招人烦了>

3.用户行为
       搜索引擎会根据用户对每条搜索的点击次数来推测用户对搜索结果的偏好,从而优化排序结果。<人工/机器控制用户行为,每天分时段反复点击重要页面使其排名靠前,或者反复搜索某些特定关键词,但要确认没有作弊风险>

       因此我们得到公式,页面权重值=页面相关性值+链接权重值+用户行为得分。

 

欢迎大家到我们的博客:http://blog.shianyunduanbj.com 进行讨论。

阅读更多
个人分类: SEO
下一篇读书笔记:《SEO教程:搜索引擎优化入门与进阶》(2)——关键字
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭