读书笔记:《SEO教程:搜索引擎优化入门与进阶》(1)——搜索引擎收录及排序的基础知识

原创 2014年07月30日 12:28:33
搜索引擎对页面的收录

收录流程:
搜索引擎蜘蛛通过域名进入网站,通过首页涉及到的URL逐步深入地进行循环爬取,建立网页数据库。

每一个网页都会对应记录唯一的URL和此页面上的文字信息,然后对这些文字信息进行切词,建立关键词索引来迎合用户的搜索习惯;


页面收录方式:

深度优先 - 跟踪浅层页面中的某一链接逐步抓取深层页面信息,直至抓完最深层页面后才返回浅层页面跟踪另一个链接。用这种方式,搜索引擎可以抓取到网站上较为隐蔽、冷门的页面,就能更多满足用户的需求。

广度优先 - 首页是根节点,横向抓取页面。先从树的较浅层开始抓取页面,直至抓完同层次的所有页面后才进入下一层。因此重要信息要展示在层次较浅的页面上,如首页。

 

 

用户提交 - 把网站中页面的URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎即可通过该文件对网站中的页面进行抓取和更新。
搜索引擎一般会结合多种收录方式。

如何避免重复性收录?


搜索引擎会比较内容相近的页面,并且通过时间戳判断哪个是原创,哪个是转载,原创的权重要高一些。转载可能就不收录了。所以要提高页面权重,保证原创性十分重要!

页面排序的影响因素

1. 页面相关性
       页面相关性指页面内容与用户所查的关键字的接近程度,主要由关键字匹配度、关键字密度、关键字分布及关键字的权重标签等决定。
 
关键字匹配度
       页面中是否包含此关键字;关键字在页面中出现了多少次。<强调本页面关键字,合理分配页面关键字的数量和位置>
 
关键字密度

       根据关键字密度,搜索引擎可以判断页面中某关键字的词频是否合理,防止作弊。关键字密度是关键字词频与网页总词汇量的比例。

*这里忍不住吐槽,N年前好多页面都有“隐形文字”,文字颜色和页面背景色一样,ctrl+a之后页面极其壮观……

 
关键字分布
       指关键字在页面中出现的位置。一般在页面顶部出现的关键字分布值较高。
 
关键字权重标签
       可以使用HTML的方法来告诉搜索引擎哪些是这个页面要突出的内容。HTML标签分为“权重标签”和“非权重标签”,权重标签会影响页面的权重,常见的包括<b><h1>等,非权重标签包括<img><br>等。

页面相关性计算公式: 相关性=关键字匹配值+关键字密度值+关键字分布值+标签权重值

       我们可以通过优化页面的页面相关性来提高搜索排名,但搜索引擎还引入了一些外部不可控的因素对页面相关性进行综合评估。如链接权重与用户行为等。

2. 链接权重
       链接主要分内部链接和外部链接,搜索引擎认为,某一页面得到的链接越多(指向它),说明这个页面越重要。其中外部链接不可操控,因此外部链接在整个链接关系中占着更大的权重比例,是决定整个页面权重的最重要的因素。<可以多在其他站点发布相关消息和链接来提高外链权重,但最好与那个网站的主题有关,不然太招人烦了>

3.用户行为
       搜索引擎会根据用户对每条搜索的点击次数来推测用户对搜索结果的偏好,从而优化排序结果。<人工/机器控制用户行为,每天分时段反复点击重要页面使其排名靠前,或者反复搜索某些特定关键词,但要确认没有作弊风险>

       因此我们得到公式,页面权重值=页面相关性值+链接权重值+用户行为得分。

 

欢迎大家到我们的博客:http://blog.shianyunduanbj.com 进行讨论。

相关文章推荐

如何实现Django规模化:进阶教程

提供:ZStack云计算 系列教程本教程为Django规模化系列三篇中的第三篇。导言在之前的教程中,我们已经将Django部署在Droplet当中。当站点流量提升时,我们则可通过寻找瓶颈以确定问题并加...

Python Django进阶教程(七)(部署,ajax通信以及文件上存)

Django版本:1.11 操作系统:Windows Python:3.5Django部署: 关闭Debug模式 在setting.py的debug改为Flase 在发布Django的时...

读书笔记:《SEO教程:搜索引擎优化入门与进阶》(2)——关键字

关键字的位置和形式 搜索引擎分析网页时,在HTML源代码中是自上而下进行的,因此搜索引擎会更加重视网页源代码中首先出现的内容,因此在规划页面时,应非常重视页面的节点: ...

读书笔记:《SEO教程:搜索引擎优化入门与进阶》(3)——URL优化

URL优化可以提高URL对搜索引擎的友好性,优化具体包括 1)对域名、目录、文件的命名和分隔符的使用 2)URL长度及关键字词频的控制 3)静态化 1. URL的命名技巧 U...

SEO教程:搜索引擎优化入门与进阶

  • 2016年02月23日 07:00
  • 60.21MB
  • 下载

SEO(搜索引擎优化)个人知识分享(URL,404,alt属性)

这个网站http://www.tjjsqz.com就是我目前进行了这些优化,大家可以Ctrl+u查看源码,一起讨论一下,互相学习  url优化伪静态优化      网站常规的类型分为动态网站和静态...

搜索引擎优化( SEO ) 基础知识

  • 2012年04月08日 19:23
  • 362KB
  • 下载

关于SEO(搜索引擎优化)的个人掌握知识分享

这个网站http://www.tjjsqz.com是我进行的这些优化大家可以ctrl+u查看源码结合我的文章进行参考讨论学习。 首先网站内的三大标签优化  1、什么叫做三大标签,指的是tdk标签,是...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:读书笔记:《SEO教程:搜索引擎优化入门与进阶》(1)——搜索引擎收录及排序的基础知识
举报原因:
原因补充:

(最多只允许输入30个字)