大数据
文章平均质量分 85
lanonola
这个作者很懒,什么都没留下…
展开
-
Hadoop生态系统相关理论总体了解
Hadoop生态系统相关理论总体了解一、关于版本1.0时代:HDFS和MapReduce2.0时代:HDFS、MapReduce、Yarn3.0时代:期待中。。二、关于优点1.开源(免费)2.社区活跃,参与者多3.涉及到分布式存储和计算的方方面面4.已得到企业的认证三、主要模块介绍1.分布式存储系统HDFS(HadoopDistributed File原创 2016-07-11 13:44:26 · 406 阅读 · 0 评论 -
HDFS理论及基本命令
第六章的代码及命令的部分本人还未验证,先记录,验证后如有变动再更新。一、是什么1.是一个易于扩展的分布式文件系统2.可以运行在大量普通廉价机器上,提供容错机制3.可以为大量用户提供性能不错的文件存取服务 二、优点高容错性:数据自动保存多个副本,副本丢失后,自动恢复适合批处理:移动计算而非数据,数据位置暴露给计算框架适合大数据处理:GB、TB、甚至PB级数据;百万规模原创 2016-07-12 11:04:37 · 2882 阅读 · 0 评论 -
hadoop单机环境搭建
环境:宿主机系统:windows7虚拟机:Oracle VMVirtualBoxLinux: ubuntukylin-14.04.1-amd64.isojdk:1.7.0_101hadoop:2.7.2虚拟主机1台网络模式:桥接hadoop位置/usr/local/hadoop hadoop下载地址:http://apache.fayea.com原创 2016-06-12 12:30:03 · 406 阅读 · 0 评论 -
YARN理论
心得:着重理解yarn是什么,在hadoop生态系统中充当的角色,最后提到的框架,并不熟悉,也未展开,只做记录。一、是什么通用的统一资源管理系统,可以同时运行长应用程序和短应用程序。长应用程序:通常情况下,永不停止运行的程序,如:Service、HTTPServer等短应用程序:短时间(秒级、分钟级、小时级)内会运行结束的程序,如:MR job、Spark Job等二、产生背景原创 2016-07-12 13:18:00 · 1435 阅读 · 0 评论