hadoop
hadoop
飛翔的大雁
这个作者很懒,什么都没留下…
展开
-
第八天 hadoop 数据的清洗、串行MR、压缩算法
数据的清洗、多map job、压缩算法一、数据的清洗案例数据效果map端清洗client端二、计数器工具三、串行MapReduce Job案例:数据思路Map端1. 平均数map端2. 计数端map3. sum端mapReduce端1. 平均数reduce端2. 计数端reduceClient 端四、压缩案例:Unzipzip一、数据的清洗目的:将Flume采集到的原始数据通常都不规范,格式不符合要求,错误的无效的数据 清除 数据来源: web项目的数据(用户操作日志),数据 , app ,原创 2020-09-12 19:50:09 · 893 阅读 · 0 评论 -
第七天 hadoop shuffle过程
shuffle一、Shuffle(重要,MR的核心)1. 概念 (分组、排序、合并)2. 阶段:map阶段的Shuffle:reduce 阶段的shuffle二、 reduce阶段的多表合并三、map阶段的多表合并四、数据的清洗一、Shuffle(重要,MR的核心)1. 概念 (分组、排序、合并) 是从map结束到reduce开始之间的过程 包括: partitions 、copy 、 sort 阶段 和一些可选操作(合并/压缩等操作)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存原创 2020-09-12 18:53:57 · 368 阅读 · 0 评论 -
第六天 hadoop MapReduce运行原理
MR运行原理一、MapReduce概述<1>概念<2>特点<3>底层的实现流程<4> MapReduce案例----wordCount思路Map端Reduce 端client端二、MapReduce运行流程1. 在MapReduce作业中的进程2. mr程序执行流程二、MapReduce 并行度 决定机制MapTask并行度 决定机制ReduceTask的并发度决定机制三、切片机制切片优化四、数据的分区五、数据的排序六、数据的合并七、案例 单词统计Map端原创 2020-09-12 17:21:22 · 270 阅读 · 0 评论 -
第五天 hadoop DataNode、节点的退役与服役
DataNode和MR运行原理原创 2020-09-12 16:39:34 · 676 阅读 · 0 评论 -
第四天 hadoop HDFS上传下载原理
一、HDFS数据流向模型(上传和下载)1>网络拓扑结构和机架感知1. 网络拓扑 节点距离:两个节点到达共同父节点的距离和2. 机架感知 ( 副本节点的选择 ) 例如:500个节点,上传数据jdk.tar.gz ,设定副本数为3, 根据机架感知,副本数据存储节点的选择。<2>上传操作数据流向模型1. client向namenode发送上传请求(将本地e:/myfile.txt上传到HDFS)2. NameNode返回上传请求结果3. clinet原创 2020-09-10 17:04:45 · 327 阅读 · 0 评论 -
hadoop 常用命令
hdfs haadmin1、-transitionToActive 2、-transitionToStandby :将指定的namenode ID切换为Active或者standby。这个指令并不会触发“fencing method”,所以不常用,我们通常使用"hdfs haadmin -failover"来切换Namenode状态。3、-failover [–forcefence] [–foreactive] :在两个Namenode之间failover。这个指令会触发将first节点fail原创 2020-09-10 15:06:12 · 2780 阅读 · 1 评论 -
第三天 hadoop文件系统
一、系统启动脚本分析( hdfs+yarn : 五个守护进程 )sbin/start-all.sh (过时了,推荐使用下面的两种方式)调用 :start-dfs.shstart-yarn.shsbin/start-dfs.sh (hdfs相关的进程)启动名称节点启动数据节点启动辅助名称节点使用:hadoop-daemons.sh 启动名称节点、数据节点、辅助名称节点sbin/start-yarn.sh (yarn相关的进程)启动资源管理原创 2020-09-10 14:56:29 · 469 阅读 · 0 评论 -
第二天 hadoop 运行模式
一、sshSSH:安全的远程连接 xshell/putty工具连接linux系统时,使用的方式就是ssh 语法: ssh ip地址 密码伪分布模式:主节点 master 管理 多个 从节点 slaveSSH的无秘登陆:二、Hadoop伪分布模式<1>设置三种模式的切换( 配置文件 + 守护进程的启动 = hadoop集群 )hadoop/etc/hadoop (hadoop 连接文件) hadoop/etc/f原创 2020-09-10 13:05:00 · 321 阅读 · 0 评论 -
第一天 hadoop概述
体系架构一、hadoop大数据 概述<1>概念1. 概念: 大数据(big data),指无法在一定时间范围内用 常规软件工具 进行捕捉、管理和处理的数据集合。 解决的问题的是:海量数据的存储和处理问题2. 单位 1 Byte =8 bit 1 KB = 1,024 B 1 MB = 1,024 KB 1 GB = 1,024 MB 1 TB = 1,024 GB 1 PB = 1,024 TB (数据量在PB级别) 1 EB = 1,024 PB原创 2020-09-10 16:31:56 · 960 阅读 · 0 评论