Hadoop
文章平均质量分 52
BornZhu
这个作者很懒,什么都没留下…
展开
-
MapReduce概述
1.MapReduce的起源 它源自谷歌的MapReduce论文,发表于2004年12月,Hadoop的MapReduce是Google MapReduce的克隆版。 2.MapReduce的特点 (1)易于编程。 (2)良好的扩展性 (3)高容错性 (4)海量数据的离线处理 3.MapReduce不擅长的场景 (1)实时计算 (2)流式处理 (3)DAG计算 4.MapRe原创 2018-01-20 16:17:33 · 549 阅读 · 0 评论 -
分布式文件系统HDFS
1.什么是HDFS? hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。源自于谷歌的GFS论文。发表于2003年,HDFS是GFS的克隆版。 2.HDFS的设计目标 (1)非常巨大的分布式文件系统 (2)运行在普通的廉价的硬件上 (3)易拓展,为用户提供性能不错的文件存储服务 3.HDFS架构 HDFS是Mas原创 2018-01-18 17:32:45 · 5470 阅读 · 0 评论 -
Hadoop概述
1.什么是hadoop? hadoop是一个分布式系统基础架构,由apache基金会开发,用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。 它包括三部分:HDFS,YARN,和MapReduce。 HDFS:Hadoop分布式文件系统 YARN:任务调度和集群资源管理框架。 MapReduce:能够基于YARN并行的处理大规模的数据集。 2.狭原创 2018-01-18 15:58:22 · 2251 阅读 · 0 评论 -
hadoop,sparksql学习过程中遇到的报错及解决方法
四五个月之前学习了hadoop,sparksql,在学习过程中遇到了许多问题,陆续地总结到了word文档中,现在把这些东西放到博客里,虽然都是些基础的问题,但是相信也能够帮助到和我一样刚刚入门的小伙伴们。 我的环境:CentOS 6.4 hadoop-2.6.0-cdh5.7.0 hive-1.1.0-cdh5.7.0 scala2.11.8 spark-2.1原创 2017-11-14 15:50:21 · 2050 阅读 · 1 评论