hadoop学习笔记
文章平均质量分 88
kentbleau
吃得苦中苦方为人上人
展开
-
hadoop使用场景
大数据量存储:分布式存储日志处理: Hadoop擅长这个海量计算: 并行计算ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache Mahout项目搜索引擎:hadoop + lucene实现数据挖掘:目前比较流行转载 2014-05-19 11:03:22 · 803 阅读 · 0 评论 -
hadoop源码导入到eclipse
1.版本说明操作系统:ubantu16.04.1 Desktophadoop:hadoop-2.7.3-srceclipse:java-neon其他需要安装软件说明:jdk1.8 maven3.0.5 ProtocalBuffer-2.5.0安装教程请参考我的另一篇博客:http://blog.csdn.net/blue_it/article/details/54原创 2017-01-06 16:12:50 · 2626 阅读 · 0 评论 -
Hadoop Yarn 框架原理及运作机制
写得很好,所以就转载了一下,只可惜原创已经找不到了。1.1 YARN 基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而A转载 2016-12-30 14:13:35 · 500 阅读 · 0 评论 -
hadoop yarn
The fundamental idea of YARN is to split up the functionalities of resource management and job scheduling/monitoring into separate daemons. The idea is to have a global ResourceManager (RM) and per-翻译 2016-12-30 09:51:36 · 471 阅读 · 0 评论 -
ubantu下编译hadoop
本文主要讲述:ubantu16.04.1 Desktop下编译hadoop-2.7.3-src1.编译前准备1.1查看hadoop-2.7.3-src编译要求解压hadoop-2.7.3-src.tar.gz,进入文件夹hadoop-2.7.3-src中,打开BUILDING.txt由编译向导可知,需要安装的相关工具软件及注意事项1.2安装相关工具软件原创 2017-01-06 11:05:33 · 1056 阅读 · 0 评论 -
ubuntu下protobuf安装
1 下载protobuf https://github.com/google/protobuf/releases/download/v2.6.1/protobuf-2.6.1.tar.gz2 进入下载文件的目录tar -zxvf protobuf-2.6.1.tar.gz cd protobuf-2.6.1/ ./configure转载 2017-01-03 17:20:24 · 22763 阅读 · 0 评论 -
hadoop环境搭建
1 安装前准备虚拟机软件:VMWare操作系统:ubuntu-16.04.1 下载地址:http://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/16.04.1/ubuntu-16.04.1-server-amd64.isohadoop版本:hadoop-2.7.3下载地址:http://apache.fayea.com/hadoo原创 2016-12-29 14:31:16 · 574 阅读 · 0 评论 -
Mapreduce shuffle和排序
Mapreduce为了确保每个reducer的输入都按键排序。系统执行排序的过程-----将map的输出作为输入传给reducer 称为shuffle。学习shuffle是如何工作的有助于我们理解mapreduce工作机制。shuffle属于hadoop不断被优化和改进的代码库的一部分。从许多方面看,shuffle是mapreduce的“心脏”,是奇迹出现的地方。下面这张图介绍了mapre转载 2014-05-26 19:06:37 · 1052 阅读 · 0 评论 -
Hadoop简介(1):什么是Map/Reduce
看这篇文章请出去跑两圈,然后泡一壶茶,边喝茶,边看,看完你就对hadoop整体有所了解了。转载 2014-05-19 14:40:36 · 694 阅读 · 0 评论 -
hadoop HDFS文件系统的特征
hadoop HDFS文件系统的特征转载 2014-05-19 11:58:23 · 1074 阅读 · 0 评论 -
Hadoop到底能做什么?怎么用hadoop?
hadoop是什么?(1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理),Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任转载 2014-05-19 11:23:15 · 2180 阅读 · 0 评论 -
Hadoop新手学习指导
对于我们新手入门学习hadoop大数据存储的朋友来说,首先了解一下云计算和云计算技术是有必要的。下面先是介绍云计算和云计算技术的: 云计算,是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机和其他设备,主要是基于互联网的相关服务地增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一转载 2014-05-19 11:21:20 · 873 阅读 · 0 评论 -
Ubantu命令行安装jdk
1 安装前准备虚拟机软件:VMWare操作系统:ubuntu-16.04.1 下载地址:http://mirrors.tuna.tsinghua.edu.cn/ubuntu-releases/16.04.1/ubuntu-16.04.1-server-amd64.isojdk版本:jdk-8u111-linux-x64.tar.gz下载地址:http://www.oracle.原创 2016-12-29 12:12:29 · 1653 阅读 · 0 评论