一、爬取数据
搜索引擎通过网页之间的链接来爬取互联网的内容。爬取的起点理论上可以是任何地方,但是理想情况是从一些被信任的网站上开始。
二、排名的基本依据
(一)相关度
即网页的内容与用户搜索内容的相关程度。一般下面的情况相关度会提高:
查询的内容在文中多次出现,在文件标题或者重要的小标题出现,页面有来自相关页面并使用相关锚文件并使用相关锚文字的链接。
(二)重要度
即与用户查询内容相匹配的文件的重要程度或受欢迎程度。一般以其它文件对改文件的引用次数为参考。
三、搜索引擎眼中页面
(一)能看见的内容
(1)页面标题(即title标签)。网页标题栏、每条搜索结果顶部的蓝色链接都是它的内容,它是影响排名最重要的因素之一。
(2)<meta http-equiv="keywords" content="..." />
标签。作弊者们很多年前就破坏了这个标签的价值,所以现在这个关键词标签对于google而言几乎可以忽略,但是Yahoo和Bing似乎还用它来作为参考。(亲测,百度有效)
(3)<meta http-equiv="description" content="..." />
标签。搜索引擎经常把它作为搜索结果的页面说明,对点击率有显著影响。
(4)图片的alt属性。有视觉障碍或者关闭了图片显示的人需要用到它。
(二)看不见的内容
(1)图片、音频、视频。
(2)flash(部分)。
(3)frame、ifame
(4)embed
(5)ajax动态加载的内容