hadoop
爪蛙打不过派蛇
这个作者很懒,什么都没留下…
展开
-
hadoop单例模式安装运行
hadoop转载 2018-05-06 20:17:29 · 287 阅读 · 0 评论 -
MapReduce和yarn
1.Mapreduce是什么?Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;2.作用(1)海量数据在单机上处理因为硬件资源限制,无法胜任(2)而一旦将单机版程序扩展到集群来分布式运行,将极大增加程序的复杂度和...原创 2018-06-06 13:09:11 · 186 阅读 · 0 评论 -
CentOS7 Hadoop 2.7.3 Hive 2.1.1
1.前言说明:安装hive前提是要先安装hadoop集群,并且hive只需要再hadoop的namenode节点集群里安装即可(需要再所有namenode上安装),可以不在datanode节点的机器上安装。另外还需要说明的是,虽然修改配置文件并不需要你已经把hadoop跑起来,但是本文中用到了hadoop命令,在执行这些命令前你必须确保hadoop是在正常跑着的,而且启动hive的前提也是需要ha...转载 2018-06-07 00:55:18 · 187 阅读 · 0 评论 -
mapreduce序列化java代码
package demo;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Doub...转载 2018-05-29 21:45:38 · 237 阅读 · 0 评论 -
Hadoop退出安全模式
hadoop为了防止数据丢失,启动了“安全模式”的设置,每次启动hadoop后一段时间内集群处于安全模式,该模式下集群会检查各节点文件块的记录,如果数据块中满足replication设置值的数据块的数量在总数据块数量中所占比例没有超过一定值(称为安全模式阀值,默认为0.999f),那么集群将持续处于安全模式,在该模式下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系...转载 2018-05-24 13:18:09 · 657 阅读 · 0 评论 -
HADOOP生态圈
Hadoop是一个开源的、可靠的、可扩展的分布式并行计算框架,主要包括:-MapReduce – 离线大数据分析计算引擎-HDFS – 分布式文件系统:大规模、分布式、容错-YARN– 任务执行调度资源管理框架-Hbase – NoSQL数据库-Hive – 分布式数据仓库:基于SQL的数据仓库,数据分析工具,将结构化数据文件映射为库表,并提供强大的类SQL查询功能-MapReduce – 分布式...原创 2018-05-22 23:47:26 · 354 阅读 · 0 评论 -
centos7上安装Hadoop集群
1下载hadoop2安装3个虚拟机并实现ssh免密码登录 2.1安装3个机器 2.2检查机器名称 2.3修改/etc/hosts文件 2.4 给3个机器生成秘钥文件 2.5 在hserver1上创建authorized_keys文件 2.6将authorized_keys文件复制到其他机器 2.7 测...转载 2018-05-23 15:08:16 · 368 阅读 · 0 评论 -
MapReduce排序过程详解
Hadoop、Spark等分布式数据处理框架在宣传自己的性能时大都以排序效果来做比较,各种类别的Sort Benchmark已成为行业基准测试。之所以选择排序是因为排序的核心是shuffle操作,数据的传输会横跨集群中所有主机,Shuffle基本支持了所有的分布式数据处理负载。下面就来详细分析一下使用mapreduce实现排序的基本过程。先看一些准备知识。MapReduce中的数据流动最简单的过程...转载 2018-06-01 14:17:26 · 13713 阅读 · 1 评论