在已经遍历到某个页面以后到这个页面被用户搜索到之前,有一个预处理的过程
预处理包括:
1提取文字
去掉标签,去掉javascript,去掉图片剩下纯文本,还会留下meta中的文字,图片的替代文字,flash的替代文字,锚链接文字
2中文分词
两种方法,第一种字典匹配,有一个词语字典,分词的时候查看文字组合方式在字典中有没有(准确程度取决于字典是不是全),第二种统计方法可以理解为机器学习语义分析,计算字和字出现相邻的概率,这种方法可以更快的反应,有利于消除歧义。
3去停止词
的 得 啊 呢 等无关词去掉
4消除噪声
准确的知道页面主题比如博客里有 “历史文档一项” 这项在搜索引擎查询“历史”的时候不应该被推送,,区分这种情况叫消除噪声。
方法是将页面分块:页头,导航,正文,页脚,广告,在全网的网站中出现概率较高的区块就属于噪声,想csdn的文章管理,这个在全网中出现概率较高,就被视为噪声预处理的时候被直接过滤掉。
5去重
搜索引擎会去掉重复的东西两个网站的文章一样的话,搜索引擎会去掉一个。所以在网站首页上展示的东西一定要保持原创
6正向索引
将每个网页都进行上面五项操作,最后将网页转化为关键词集合,这个集合对应一个文件ID,这个文件ID对应这个集合
7倒排索引
关键词到文件ID的映射,一个关键词对应一个文件ID集合,这个文件ID集合里的每个文件ID对应的关键词集合都包括最开始的key值关键字。
之后当用户搜索一个词的时候,程序直接找到这个关键词对应的文件ID集合然后就找到了所有包含有这个单词的文件。
8链接关系计算
链接权重
这是一个很有意思的东西详细研究下:
1什么叫链接权重:
链接权重就是搜索引擎根据页面的外部链接来统计每个页面的得票数计算而得的,反映的是链接在页面中的重要程度。
从作用性来讲就是搜索引擎在爬页面的时候不论是广度优先还是深度优先都不是纯粹的,他们会优先选择一些权重比较高的去遍历,这就是链接权重的意义所在。
如何提高链接权重呢:
1增加外部链接
增加外部链接方式有向目录网站提交网址,比如直接向 目录网站提交网址
与相关相似网站交换友情链接,比如优酷会有土豆的链接,链接会有优酷的链接
在合适的网站上发表自己的宣传软文
在自己的文章里写好版权声明别人转载的时候会直接带着版权声明甚至直接是原网址链接转载
在大的社交平台留言参加讨论并留下自己网站的网址
写博客指向自己的网址。有几点要注意:
外部链接尽量要和本网站相关性较大
尽量想办法不交换链接,单方面的导入链接的效果比交换的链接效果要好
尽量让权重较高的网站为自己提供外部链接
要有导出链接,想办法让自己成为枢纽。尽量导出到同行业权威性较高的网站。
超链接的文字部分要仔细推敲