Hadoop
文章平均质量分 76
雷蒙侠
这个作者很懒,什么都没留下…
展开
-
Hadoop基本介绍
1、Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成,其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS(Hadoop Distributed File System)来执行MapReduce程序的MapReduce引擎。 (1)Pig是一个基于Hadoop的大规模数据分析平台,Pig为复杂的海量...转载 2018-09-13 15:09:05 · 120 阅读 · 0 评论 -
深入理解HDFS:Hadoop分布式文件系统
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/bingduanlbd/article/details/51914550 ...转载 2018-09-14 16:57:52 · 223 阅读 · 0 评论 -
Zookeeper的应用和原理
场景一 有这样一个场景:系统中有大约100w的用户,每个用户平 均有3个邮箱账号,每隔5分钟,每个邮箱账需要收取100封邮件,最多3亿份邮件需要下载到服务器中(不含附件和正文)。用20台机器划分计算的压力,从 多个不同的网路出口进行访问外网,计算的压力得到缓解,那么每台机器的计算压力也不会很大了。 通过我们的讨论和以往的经验判断在这场景中可以实现并行计算,但我们还期望能对并行计...转载 2018-09-14 14:53:32 · 137 阅读 · 0 评论 -
MapReduce详解
1.1 MapReduce是什么 Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词, 一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量...转载 2018-09-19 16:20:18 · 208 阅读 · 0 评论 -
Eclipse配置Hadoop开发环境详细步骤+WordCount示例
说明:Hadoop集群已经搭建完毕,集群上使用的Hadoop-2.5.0。 目的:在window10系统上利用Eclipse配置Hadoop开发环境,编写MapReduce关联Hadoop集群。 准备:JDK环境变量配置、Eclipse、hadoop-2.7.5.tar、hadoop-eclipse-plugin-2.7.3.jar、hadoop-common-2.7.3-bin-master...转载 2018-09-14 10:56:23 · 697 阅读 · 0 评论 -
Hadoop环境搭建
前言 Hadoop在大数据技术体系中的地位至关重要,Hadoop是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。 这是一篇入门文章,Hadoop的学习方法很多,网上也有很多学习路线图。本文的思路是:以安装部署Apache Hadoop2.x版本为主线,来介绍Hadoop2.x的架构组成、各模块协同工作原理、技术细节。安装不是目的,通过安装认识Hado...转载 2018-09-13 20:12:01 · 168 阅读 · 0 评论 -
CDH大数据平台实施经验总结
1. 平台规划注意事项 1.1 业务数据全部存储在datanode上面,所以datanode的存储空间必须足够大,且每个datanode的存储空间尽量保持一致。 1.2 管理节点/namenode对存储空间要求不高,主要存储各计算节点datanode的元数据信息,以3个datanode为例,每个datanode存储2T的数据,namenode才耗费80G的空间。 1.3 由于Hadoop有数...转载 2018-09-13 19:55:15 · 1260 阅读 · 0 评论 -
Hadoop性能调优
1. 简介 Hadoop性能调优不仅涉及Hadoop本身的性能调优,还涉及更底层的硬件、操作系统和Java虚拟机等系统的调优。具体包括以下四部分,系统对这几部分适当地进行调优均可能给Hadoop带来性能提升。 Hadoop(JobTracker, TaskTracker,…) Java Virtual Machine Operating System(CentOS, RedHat) H...转载 2018-09-13 19:51:20 · 314 阅读 · 0 评论