大数据
这次靠你了
下次还是靠你了...
展开
-
5分钟深入浅出 HDFS
通过前面几篇文章的介绍,我们深入讨论了 Hadoop MapReduce 处理数据的过程,以及优化 MapReduce性能的方方面面。期间被反复提及的 HDFS分布式文件存储系统,一直没有机会深入讲解。那么今天我们就仔细学习一下 HDFS是如何工作的。HDFS架构HDFS Client大家还记得我们如何向 Hadoop clust原创 2016-08-02 09:32:26 · 354 阅读 · 0 评论 -
hadoop使用
hadoop框架Hadoop使用主/从(Master/Slave)架构,主要角色有NameNode,DataNode,secondary NameNode,JobTracker,TaskTracker组成。其中NameNode,secondary NameNode,JobTracker运行在Master节点上,DataNode和TaskTracker运行在S原创 2016-08-02 09:38:57 · 279 阅读 · 0 评论 -
使用Cloudera部署,管理Hadoop集群
使用Cloudera部署,管理Hadoop集群[日期:2016-08-02] 1.Cloudera介绍 Hadoop是一个开源项目,Cloudera对Hadoop进行了商业化,简化了安装过程,并对hadoop做了一些封装。 根据使用的需要,Hadoop集群要安装很多的组件,一个一个安装原创 2016-08-02 09:44:04 · 3968 阅读 · 0 评论 -
五分钟零基础搞懂Hadoop
「大数据」,想必大家经常听到这个被炒得很热的话题。随之而来的是各种看似高大上的专业术语,比如「扩展性」、「可靠性」、「容错性」,好像真的很高深,要积累多年经验才能学习。 但另一方面,很多同学都刚刚进入互联网这个行业,对分布式计算还没有很多了解,那是不是就要花很多力气才能搞懂「大数据」呢?不必担心,包子老师在这里用浅显易懂深入浅出的语言,帮助没有基础的同学快速的入原创 2016-08-02 09:56:32 · 688 阅读 · 0 评论 -
五分钟深入 Hadoop 内核
前一篇系列文章五分钟零基础理解 Hadoop>介绍了 Hadoop到底是怎么回事。下面几篇文章介绍 Hadoop的核心框架,为后面讨论 Hadoop面试题打好基础!回顾上篇文章我们说到,Hadoop的工作下图所示,负责把 mapper function装载到要运行 mapper的机器上,然后执行 mapper function原创 2016-08-02 09:59:43 · 455 阅读 · 0 评论 -
hadoop命令
在这篇文章中,我们默认认为Hadoop环境已经由运维人员配置好直接可以使用。 假设Hadoop的安装目录HADOOP_HOME为/home/admin/hadoop。 启动与关闭 启动Hadoop 1. 进入HADOOP_HOME目录。 2. 执行sh bin/start-all.sh 关闭Hadoop 1. 进入原创 2016-08-02 10:06:48 · 286 阅读 · 0 评论 -
hadoop3.0
Apache hadoop项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce基于内存+io+磁盘,共同处理数据。其实最大改变的是hdfs,hdfs通过最近black块计算,根据最近计算原则,本地black块,加入到内存,先计算,通过IO,共享内存计算区域,最后快速形成计算结果。1. Hadoop 3.0简介Hadoop 2原创 2016-08-02 10:09:30 · 863 阅读 · 0 评论 -
以内存为核心的开源分布式存储系统
是一个以内存为核心的开源分布式存储系统,也是目前发展最迅速的开源大数据项目之一。Tachyon为不同的大数据计算框架(如Apache Spark,Hadoop MapReduce, Apache Flink等)提供可靠的内存级的数据共享服务。此外,Tachyon还能够整合众多现有的存储系统(如Amazon S3, ApacheHDFS, RedHat GlusterFS, Open原创 2016-08-02 09:48:45 · 1961 阅读 · 1 评论