Hadoop初探（一）_google公司大量网页怎么存储-CSDN博客

本文链接：https://blog.csdn.net/li2008xue2008ling/article/details/38962111

1. Hadoop的思想之源：Google

2. Google的低成本之道

不使用超级计算机，不使用存储（淘宝的去i，去e，去o之路）

大量使用普通的pc服务器（去掉机箱，外设，硬盘），提供有冗余的集群服务

全世界多个数据中心，有些附带发电厂

运营商向Google倒付费

3. Google面对的数据和计算难题

1)      大量的网页怎么存储

2)      搜索算法

3)      Page-Rank计算问题

1) 大量的网页怎么存储

存储网页在内存，而不在硬盘上。但是内存在一旦断电时数据就会丢失，Google采用方式为大量冗余。

2) 搜索算法

采用倒排索引。

基本思路：一般在文档集合里会有很多文档包含某个单词，每个文档会记录文档编号（DocID），单词在这个文档中出现的次数（TF）及单词在文档中哪些位置出现过等信息，这样与一个文档相关的信息被称做倒排索引项（Posting），包含这个单词的一系列倒排索引项形成了列表结构，这就是某个单词对应的倒排列表。

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件(inverted file)。

3) Page-Rank计算问题

Page-Rank：这是Google最核心的算法，用于给每个网页价值评分，是Google“在垃圾中找黄金”的关键算法，这个算法成就了今天的Google

PageRank，网页排名，又称网页级别、Google左侧排名或佩奇排名，是一种由搜索引擎根据网页之间相互的超链接计算的技术，而作为网页排名的要素之一，以Google公司创办人拉里·佩奇（Larry Page）之姓来命名。Google用它来体现网页的相关性和重要性，在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。

PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票，Google根据投票来源（甚至来源的来源，即链接到A页面的页面）和投票目标的等级来决定新的等级。简单的说，一个高等级的页面可以使其他低等级页面的等级提升。