2020年09月_飛翔的大雁

原创第八天 hadoop 数据的清洗、串行MR、压缩算法

数据的清洗、多map job、压缩算法一、数据的清洗案例数据效果map端清洗client端二、计数器工具三、串行MapReduce Job案例：数据思路Map端1. 平均数map端2. 计数端map3. sum端mapReduce端1. 平均数reduce端2. 计数端reduceClient 端四、压缩案例：Unzipzip一、数据的清洗目的：将Flume采集到的原始数据通常都不规范，格式不符合要求，错误的无效的数据清除数据来源： web项目的数据（用户操作日志），数据， app ，

2020-09-12 19:50:09 877

原创第七天 hadoop shuffle过程

shuffle一、Shuffle（重要，MR的核心）1. 概念（分组、排序、合并）2. 阶段：map阶段的Shuffle:reduce 阶段的shuffle二、 reduce阶段的多表合并三、map阶段的多表合并四、数据的清洗一、Shuffle（重要，MR的核心）1. 概念（分组、排序、合并）是从map结束到reduce开始之间的过程包括： partitions 、copy 、 sort 阶段和一些可选操作（合并/压缩等操作）[外链图片转存失败,源站可能有防盗链机制,建议将图片保存

2020-09-12 18:53:57 357

原创第六天 hadoop MapReduce运行原理

MR运行原理一、MapReduce概述<1>概念<2>特点<3>底层的实现流程<4> MapReduce案例----wordCount思路Map端Reduce 端client端二、MapReduce运行流程1. 在MapReduce作业中的进程2. mr程序执行流程二、MapReduce 并行度决定机制MapTask并行度决定机制ReduceTask的并发度决定机制三、切片机制切片优化四、数据的分区五、数据的排序六、数据的合并七、案例单词统计Map端

2020-09-12 17:21:22 260

原创第五天 hadoop DataNode、节点的退役与服役

DataNode和MR运行原理

2020-09-12 16:39:34 657

原创第四天 hadoop HDFS上传下载原理

一、HDFS数据流向模型(上传和下载)1>网络拓扑结构和机架感知1. 网络拓扑节点距离：两个节点到达共同父节点的距离和2. 机架感知（副本节点的选择）例如：500个节点，上传数据jdk.tar.gz ，设定副本数为3，根据机架感知，副本数据存储节点的选择。<2>上传操作数据流向模型1. client向namenode发送上传请求（将本地e:/myfile.txt上传到HDFS）2. NameNode返回上传请求结果3. clinet

2020-09-10 17:04:45 318

原创第一天 hadoop概述

体系架构一、hadoop大数据概述<1>概念1. 概念：大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。解决的问题的是：海量数据的存储和处理问题2. 单位 1 Byte =8 bit 1 KB = 1,024 B 1 MB = 1,024 KB 1 GB = 1,024 MB 1 TB = 1,024 GB 1 PB = 1,024 TB （数据量在PB级别） 1 EB = 1,024 PB

2020-09-10 16:31:56 938

原创 hadoop 常用命令

hdfs haadmin1、-transitionToActive 2、-transitionToStandby ：将指定的namenode ID切换为Active或者standby。这个指令并不会触发“fencing method”，所以不常用，我们通常使用"hdfs haadmin -failover"来切换Namenode状态。3、-failover [–forcefence] [–foreactive] ：在两个Namenode之间failover。这个指令会触发将first节点fail

2020-09-10 15:06:12 2715 1

原创第三天 hadoop文件系统

一、系统启动脚本分析（ hdfs+yarn : 五个守护进程）sbin/start-all.sh (过时了，推荐使用下面的两种方式)调用 :start-dfs.shstart-yarn.shsbin/start-dfs.sh （hdfs相关的进程）启动名称节点启动数据节点启动辅助名称节点使用：hadoop-daemons.sh 启动名称节点、数据节点、辅助名称节点sbin/start-yarn.sh （yarn相关的进程）启动资源管理

2020-09-10 14:56:29 456

原创第二天 hadoop 运行模式

一、sshSSH：安全的远程连接 xshell/putty工具连接linux系统时，使用的方式就是ssh 语法： ssh ip地址密码伪分布模式：主节点 master 管理多个从节点 slaveSSH的无秘登陆：二、Hadoop伪分布模式<1>设置三种模式的切换（配置文件 + 守护进程的启动 = hadoop集群）hadoop/etc/hadoop （hadoop 连接文件） hadoop/etc/f

2020-09-10 13:05:00 312

我还是个菜鸟