Hadoop
懒先森要努力
最淡的墨水也胜于最强的记忆
展开
-
大数据时代——为什么用HADOOP
什么叫大数据 “大”,说的并不仅是数据的“多”!不能用数据到了多少TB ,多少PB 来说。 对于大数据,可以用四个词来表示:大量,多样,实时,价值。 大量:这个大家都知道,想百度,淘宝,腾讯,Facebook,Twitter等网站上的一些信息,这肯定算是大数据了,都要存储下来。 多样:数据的多样性,是说数据可能是结构型的数据,也可能是非结构行的文本,图片,视频,语转载 2016-08-03 14:15:31 · 1629 阅读 · 0 评论 -
整体了解HADOOP框架及一些开源项目
Hadoop框架中,有很多优秀的工具,帮助我们解决工作中的问题。 Hadoop的位置 从上图可以看出,越往右,实时性越高,越往上,涉及到算法等越多。 越往上,越往右就越火…… Hadoop框架中一些简介 HDFS HDFS,(Hadoop Distributed File System) hadoop分布式文件系统。在Goog转载 2016-08-03 14:37:06 · 6482 阅读 · 0 评论 -
HADOOP版本选择
Hadoop作为开源项目,很多分枝。也有很多社区的支持。所以hadoop版本发展很快。 大部分情况下,我们可以选择 Apache社区版本: 完全开源,免费,非商业。apache社区的hadoop版本分枝较多,而且部分hadoop存在bug。在选择hadoop,hbase,hive等时,需要考虑兼容性。 Cloudera版本: 开源,免费,有商业和非商业版本。是在apa转载 2016-08-03 14:46:51 · 549 阅读 · 0 评论 -
HADOOP的运行模式
Hadoop的运行,分三种模式:单机模式,伪分布模式,完全分布模式。 单机模式: 单机模式是hadoop默认的模式; 主要用于开发调试MapReduce程序的应用逻辑; 不会和守护进程交互; 程序在一个jvm虚拟机上运行。 伪分布模式: 在“单节点集群”上运行Hadoop; 所有的守护进程都运行在同一台机器上; 该模式在单机转载 2016-08-03 15:03:19 · 544 阅读 · 0 评论 -
HADOOP1.X中HDFS工作原理
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。 HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。(商用机)转载 2016-08-03 15:56:27 · 537 阅读 · 0 评论