自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我还是个菜鸟

我还是个菜鸟! 如有错误,请多指教.

  • 博客(9)
  • 收藏
  • 关注

原创 第八天 hadoop 数据的清洗、串行MR、压缩算法

数据的清洗、多map job、压缩算法一、数据的清洗案例数据效果map端清洗client端二、计数器工具三、串行MapReduce Job案例:数据思路Map端1. 平均数map端2. 计数端map3. sum端mapReduce端1. 平均数reduce端2. 计数端reduceClient 端四、压缩案例:Unzipzip一、数据的清洗目的:将Flume采集到的原始数据通常都不规范,格式不符合要求,错误的无效的数据 清除 数据来源: web项目的数据(用户操作日志),数据 , app ,

2020-09-12 19:50:09 877

原创 第七天 hadoop shuffle过程

shuffle一、Shuffle(重要,MR的核心)1. 概念 (分组、排序、合并)2. 阶段:map阶段的Shuffle:reduce 阶段的shuffle二、 reduce阶段的多表合并三、map阶段的多表合并四、数据的清洗一、Shuffle(重要,MR的核心)1. 概念 (分组、排序、合并) 是从map结束到reduce开始之间的过程 包括: partitions 、copy 、 sort 阶段 和一些可选操作(合并/压缩等操作)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存

2020-09-12 18:53:57 357

原创 第六天 hadoop MapReduce运行原理

MR运行原理一、MapReduce概述<1>概念<2>特点<3>底层的实现流程<4> MapReduce案例----wordCount思路Map端Reduce 端client端二、MapReduce运行流程1. 在MapReduce作业中的进程2. mr程序执行流程二、MapReduce 并行度 决定机制MapTask并行度 决定机制ReduceTask的并发度决定机制三、切片机制切片优化四、数据的分区五、数据的排序六、数据的合并七、案例 单词统计Map端

2020-09-12 17:21:22 260

原创 第五天 hadoop DataNode、节点的退役与服役

DataNode和MR运行原理

2020-09-12 16:39:34 657

原创 第四天 hadoop HDFS上传下载原理

一、HDFS数据流向模型(上传和下载)1>网络拓扑结构和机架感知1. 网络拓扑 节点距离:两个节点到达共同父节点的距离和2. 机架感知 ( 副本节点的选择 ) 例如:500个节点,上传数据jdk.tar.gz ,设定副本数为3, 根据机架感知,副本数据存储节点的选择。<2>上传操作数据流向模型1. client向namenode发送上传请求(将本地e:/myfile.txt上传到HDFS)2. NameNode返回上传请求结果3. clinet

2020-09-10 17:04:45 318

原创 第一天 hadoop概述

体系架构一、hadoop大数据 概述<1>概念1. 概念: 大数据(big data),指无法在一定时间范围内用 常规软件工具 进行捕捉、管理和处理的数据集合。 解决的问题的是:海量数据的存储和处理问题2. 单位 1 Byte =8 bit 1 KB = 1,024 B 1 MB = 1,024 KB 1 GB = 1,024 MB 1 TB = 1,024 GB 1 PB = 1,024 TB (数据量在PB级别) 1 EB = 1,024 PB

2020-09-10 16:31:56 938

原创 hadoop 常用命令

hdfs haadmin1、-transitionToActive 2、-transitionToStandby :将指定的namenode ID切换为Active或者standby。这个指令并不会触发“fencing method”,所以不常用,我们通常使用"hdfs haadmin -failover"来切换Namenode状态。3、-failover [–forcefence] [–foreactive] :在两个Namenode之间failover。这个指令会触发将first节点fail

2020-09-10 15:06:12 2715 1

原创 第三天 hadoop文件系统

一、系统启动脚本分析( hdfs+yarn : 五个守护进程 )sbin/start-all.sh (过时了,推荐使用下面的两种方式)调用 :start-dfs.shstart-yarn.shsbin/start-dfs.sh (hdfs相关的进程)启动名称节点启动数据节点启动辅助名称节点使用:hadoop-daemons.sh 启动名称节点、数据节点、辅助名称节点sbin/start-yarn.sh (yarn相关的进程)启动资源管理

2020-09-10 14:56:29 456

原创 第二天 hadoop 运行模式

一、sshSSH:安全的远程连接 xshell/putty工具连接linux系统时,使用的方式就是ssh 语法: ssh ip地址 密码伪分布模式:主节点 master 管理 多个 从节点 slaveSSH的无秘登陆:二、Hadoop伪分布模式<1>设置三种模式的切换( 配置文件 + 守护进程的启动 = hadoop集群 )hadoop/etc/hadoop (hadoop 连接文件) hadoop/etc/f

2020-09-10 13:05:00 312

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除