大数据
ellen艾琳
这个作者很懒,什么都没留下…
展开
-
hadoop简介
1、hadoop是一个做可靠的、可扩展的、分布式计算的开源软件项目。擅长日志分析,如使用HiveQL进行数据分析。2、pig可以做高级数据处理3、去IOE化。I:IBM。O:Oralce。E:EMC。4、大数据与云计算的差异 云计算:虚拟化,如VMware。将硬件资源(CPU、内存、硬盘)整合,形成硬件资源池。在资源池上分配(切分)资源。 大数据:聚合。5、YARN:Yet Another Res...原创 2018-04-01 23:58:01 · 114 阅读 · 0 评论 -
HDFS
1、HDFS:Hadoop Distributed File System,基于Google’s GFS (Google File System)2、HDFS块:当一个文件被添加到HDFS上时,它被分割成块。这是一个与本地文件系统相似的概念。默认块大小64M/128M(可配置)。配置文件是:vi /etc/hadoop/conf/hdfs-site.xml 。配置参数是:dfs.blocksize...原创 2018-04-15 23:43:15 · 241 阅读 · 0 评论 -
HDFS的部署方式
原创 2018-04-16 23:27:15 · 1026 阅读 · 0 评论 -
MapReduce
1、 MapReduce是一个编程模型,既不是平台也不是特定的语言。面向记录的数据处理(键和值),便于跨多个节点分配任务2、 集群上的资源管理取决于版本 1)MapReduce v1(MRv1,经典MapReduce)使用JobTracker和TaskTracker(架构)守护进程启动和管理Map任务,shuffle和sort,以及Reduce任务 2)MapReduce v2(M...原创 2018-04-17 21:42:01 · 193 阅读 · 0 评论