第二章要了解搜索引擎
上一个笔记已经说道,SEO是保证客户体验的情况下迎合搜索引擎
迎合搜索引擎的行为就是:减少搜索引擎工作量,降低其工作难度,让搜索引擎轻松快速的收录网站页面,准确的提取页面内容。
搜索引擎是机器行为(百度) 目录是人工行为(hao 123) hao 123 可以被视为是网站的高质量外部连接(非SEO考虑)
搜索引擎的难点
1 数据更新,对于每天成千上万的数据更新,爬虫首先更新权重较高的网页,之后更新容易解析的网页,在权重无法提高的情况下,让自己的网页容易解析是被爬虫爬到的一个优化。不要用flash 减少js的使用,有用信息尽量放在游客就能访问的位置不要放在登录才能访问的位置
2海量数据存储(这个对SEO的意义不大,暂不考虑)
3索引处理快速有效,具备高可扩展性(暂不考虑)
4查询处理快速准确(暂不考虑)
5判断用户意图及人工智能(不考虑)
搜索引擎结果展示:
1搜索引擎展示的页面标题,实际上是搜索结果页的title 所以这个title的内容要经过仔细推敲。
2收缩引擎显示的页面说明有的时候取自html页面中的相关内容抓取,有的时候取自页面的description 所以这也是一个需要仔细推敲的地方。
3某些与日期明确相关的页面,google的搜索引擎会在页面说明之前写明日期(例如博客,帖子这类搜索结果就会有明确的日期被标注出来)。
4第四行最左侧显示网址,用户可以看到页面来自哪个网站,来自哪个目录以及文件名信息。百度还会在中间显示本页面在百度数据库中最后的更新日期。
5网页快照,就是存储在百度数据库中的网页内容,可以供原始网页出问题时访问。google还会在快照旁边提供一个相关网页
6使用RDFa或是Microdata格式标签的页面,google可能会在标题下面用灰色文字机上一样富摘要,也是一个网页描述,这个要注意可以加一下。
7谷歌的面包屑导航这个SEO做不了太多,主要是google的显示方式
搜索引擎的工作原理
总体分为三个阶段:
1爬虫爬行抓取获得html的代码存入数据库
这部分蜘蛛按照网页链接爬行,两种算法深度有先和广度优先,由于无论采用哪种算法蜘蛛都不可能爬完整个互联网,所以可以预见,深度优先对于一个已经被爬到的某个网站的更多页面被爬到有优势,而广度优先则给更多的网站被爬到的机会,但是可能被爬到的网站不会被爬全。这里首先要注意的一点就是,蜘蛛是爬不全的,所以蜘蛛会选择去爬一些权重较高的网址,也就是说蜘蛛的进行深度优先和广度优先的时候并不是完全按照图的无权重遍历来做的。
蜘蛛爬行的权重由什么来决定呢?
a:质量高,资格老,这样的网站被认为权重比较高
b:频繁更新,蜘蛛会看页面的更新频率,如果更新频率较高搜索引擎会喜欢爬
c:导入链接和导出链接,尽量为页面多增加导入链接,而且导入链接质量越高越好。
2预处理:对页面数据进行文字提取,中文粉刺索引等处理
3排名:用户输入关键词,排名程序调用索引库数据,计算相关性,然后按格式输出到搜索结果页面。