一、引言
由于近期在开发一个网页搜索应用,因此需要对搜索引擎的排序算法进行一定的了解和研究,因此对常见搜索引擎排序算法进行一点简要的分析,并且结合实际应用谈一谈如何优化搜索引擎排名。
二、搜索引擎的发展
1. 分类目录
最早的搜索引擎采用分类目录的方法,即通过人工进行网页分类并整理出高质量的网站。被称为第一代搜索引擎。
2. 文本检索
随着网页数量的增多,人工分类的方法已经不再有效,搜索引擎开始进入了文本检索的时代,通过计算用户查询关键词与网页内容的相关程度来返回搜索结果,虽然不再受数量的限制,但是对于某些恶意重复关键词来提高自己搜索引擎排名的网站难以处理,这是第二代搜索引擎。
3. 整合分析
在文本检索时代过后,出现了一种新的排名形式,通过外部链接来进行排名;当时,外部链接代表的是一种推荐的含义,通过每个网站的推荐链接的数量来判断一个网站的流行性和重要性。然后搜索引擎再结合网页内容的重要性来和相似程度来改善用户搜索的信息质量。Google首先使用了这种模式,其最主要的算法是PageRank算法,Google不仅首次使用并且大获成功,这一成就在当时引起了学术界和其他商业搜索引擎的极度关注。后来,学术界以此成就为基础,提出了更多的改进的链接分析算法。大多数的主流搜索引擎都在使用分析链接技术算法。这就是第三代搜索引擎。
4. 行为分析
第四代的搜索引擎发展出了以用户为中心的模式,用户进行每次查询时,相同的关键字可能背后是不同的需求,例如用户输入的是“苹果”,那么作为一个想要购买iPhone的用户和一个果农来说,那么要求就完全不一样。甚至是同一个用户,所查询的关键词一样,也会因为所在的时间和所在的场合不同而需要搜索不同的内容。主流搜索引擎通过对用户行为的分析,比如搜索的历史记录,还有对于权限内的用户行为,比如地理位置,网络运营商分析等,对搜索结果再度进行排名,筛选出用户需要的数据。
三、常见搜索引擎算法简介
1. PageRank算法
PageRank算法由谷歌的两位创始人,美国斯坦福大学研究生Larry Page和Sergey Brin所发明,他们在对网页排序问题的研究中,借鉴了学术界评判学术论文重要性的通用方法