hadoop
文章平均质量分 70
北山璎珞
私はこのjianghuが好き
展开
-
HBase启动问题(一) org/apache/hadoop/hbase/master/ClusterSchema
org/apache/hadoop/hbase/master/ClusterSchema原创 2022-09-08 16:30:41 · 831 阅读 · 1 评论 -
MapReduce实战(附源码资料)
有两个海量日志文件存储在hdfs上, 其中登陆日志格式:user,ip,time,oper(枚举值:1为上线,2为下线);访问日志格式为:ip,time,url,假设登陆日志中上下线信息完整,且同一上下线时间段内使用的ip唯一,计算访问日志中独立user(独立user就是用户名不同,例如:user1与user2是独立用户)数量最多的前10个url,用MapReduce实现。思路:1.将用户登陆...原创 2020-04-23 21:56:00 · 452 阅读 · 0 评论 -
Hadoop数据压缩
一 目前支持 的 压缩编码二 压缩方式选择2.1 Gzip压缩2.2 Bzip2压缩2.3 Lzo压缩2.4 Snappy压缩三 压缩位置选择压缩可以在MapReduce作用的任意阶段启用, 如下:四 压缩参数配置五 压缩 Demo5.1 数据流的压缩和解压缩package com.xu.mapreduce.compress;import jav...原创 2020-04-01 22:26:49 · 125 阅读 · 0 评论 -
MapReduce优缺点
一 优点二 缺点原创 2020-05-31 15:16:06 · 574 阅读 · 0 评论 -
Hdfs 集群安全模式
原创 2020-05-31 15:15:53 · 184 阅读 · 0 评论 -
NameNode故障处理 及 多目录配置
一 故障处理二 多目录配置原创 2020-05-31 23:26:49 · 156 阅读 · 0 评论 -
案例: Reduce 端实现 JOIN 和 Map端 实现JOIN
测试数据连接:链接:https://pan.baidu.com/s/1TBHvrfO3dKBO8xOaeFXS3Q提取码:4zug1. 需求 Reduce 端实现 JOIN假如数据量巨大,两表的数据是以文件的形式存储在 HDFS 中, 需要用 MapReduce 程序来实现以下 SQL 查询运算select a.id,a.date,b.name,b.category_id,b.pri...原创 2020-05-31 23:27:12 · 237 阅读 · 0 评论 -
MapReduce运行机制详解
一 MapTask 工作机制整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输...原创 2020-05-31 15:17:00 · 300 阅读 · 0 评论 -
MapReduce规约Combiner
概念每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络IO 性能,是 MapReduce 的一种优化手段之一combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件combiner 组件的父类就是 Reducercombiner 和 re...原创 2020-05-31 15:17:22 · 146 阅读 · 0 评论 -
Appache编译版hadoop-2.7.5安装
集群规划服务器IP192.168.177.100192.168.177.110192.168.177.120主机名node01node02node03NameNode是否否SecondaryNameNode是否否dataNode是是是ResourceManager是否否NodeManager是是是第一...原创 2020-05-31 15:17:53 · 326 阅读 · 0 评论 -
apache hadoop三种架构介绍
tandAlone,伪分布,分布式环境介绍以及安装hadoop 文档http://hadoop.apache.org/docs/一 StandAlone环境搭建1.1 下载安装下载链接:http://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gzcd /export/softwarest...原创 2020-05-31 15:18:20 · 500 阅读 · 0 评论 -
Appache版本hadoop-2.7.5重新编译
**编译软件包集合:链接:https://pan.baidu.com/s/1D-WRVRthlhkMl_a2BzkNdQ提取码:3y5h**与 CDH编译差不多!!!一 为什么要编译hadoop由于appache给出的hadoop的安装包没有提供带C程序访问的接口,所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题,需要对Hadoop源码包进行重新编译二 ...原创 2020-04-16 20:57:06 · 540 阅读 · 3 评论