目前很多重要的链接分析算法都是在PageRank算法基础上来的、PageRank是Google用来测量网站的好坏唯一标准、PageRank算法:被用户访问越多的网页质量越高,而用户在浏览网页时主要通过超链接进行页面跳转,因此我们需要通过分析超链接组成的拓扑结构来推算每个网页被访问频率的高低。Pagerank算法不仅对搜索结果进行排序外,还可以应用到其它方面,如估算网络流量,向后链接的预测器,为用户导航等。


 获得网站网页资料建立数据库并提供查询的系统这些都可以称为搜索引擎、Google、百度都是搜索引擎系统。Flume是Cloudera提供的一个海量日志收集系统、Flume说白了就是一个融入Hadoop当中的分布式、可靠性、可扩展性、可管理性、功能可扩展性、高可用的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

Hadoop是2013年最热门的技术之一是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。

   Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。【Hadoop应用开发实战】、运用flume应用开发、Pipes、Hadoop Streaming等技术结合讲师多年的云平台的各方面企业内部培训经验打造出的。