Hadoop
Mote Malone
宁静致远,遇见自己!
展开
-
Hive基于MySQL保存元数据的安装
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。原创 2016-08-28 14:09:12 · 814 阅读 · 0 评论 -
MongoDB与Hadoop结合之使用MapReduce官方实例
Hadoop 是一个开源的分布式的并行计算系统,其Map/Reduce 运算功能被广泛地应用在数据分析领域。mongo-hadoop 是一个将MongoDB 与Hadoop 相整合的开源工具。原创 2016-09-14 11:12:50 · 4094 阅读 · 0 评论 -
MapReduce实例之PageRank
PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也成为其他搜索引擎和学术界十分关注的计算模型。目前很多重要的链接分析算法都是在PageRank算法基础上衍生出来的。PageRank是Google用于用来标识网页的等级/重要性原创 2016-09-26 08:25:16 · 819 阅读 · 0 评论 -
Hadoop2.x基本原理与架构
Apache Hadoop 是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS) 和一个分布式计算引擎,该引擎支持以 MapReduce 作业的形式实现和运行程序。原创 2016-10-24 01:29:47 · 3657 阅读 · 0 评论 -
Alluxio 1.6.1的安装部署
Alluxio是一个基于内存的分布式文件系统,它是架构在底层分布式文件系统和上层分布式计算框架之间的一个中间件,主要职责是以文件形式在内存或其它存储设施中提供数据的存取服务。原创 2017-11-09 11:46:03 · 532 阅读 · 0 评论