大数据
368chen
这个作者很懒,什么都没留下…
展开
-
Hadoop 编程
处理1 select: 直接分析输入数据,取出需要的字段数据即可2.where :也是对输入数据处理的过程进行处理,判断是否需要该数据3. aggregation :min,max,sum4.group by : 通过Reducer 实现5.sort6.join:map join ,reduce join...原创 2020-05-24 20:14:33 · 162 阅读 · 0 评论 -
hadoop Shuffle
对Map的结果进行排序并传输到Reduce 进行处理,Map的结果并不是直接存放到硬盘,而是利用缓存做一些预排序处理Map 会调用Combiner ,压缩,按key 进行分区,排序等,尽量减少结果的大小,每个Map 完成后都会通知Task,然后Reduce 就可以进行排序。Map 端当Map 程序开始产生结果的时候,并不是直接写到文件的,而是·利用缓存做一些排序方面的预处理每个Map 任务都有一个循环内存缓冲区(默认100MB),当缓存的内容达到80%时,后台线程开始将内容写到文件,此时Ma原创 2020-05-24 19:36:35 · 145 阅读 · 0 评论 -
hadoop Mapper
主要是读取InputSplit 的每一个<Key,Value> 对并进行处理。原创 2020-05-24 18:12:23 · 231 阅读 · 0 评论 -
hadoop 读取数据
MapReduce -读取数据通过InputFormat 决定读取的数据的类型,然后拆分成一个个InputSplit ,每个inputSplit 对应一个Map 处理,RecordReader 读取InputSplit 的内容给Map 。InputFormat决定读取数据的格式,可以是文件或数据库等。功能:1) 验证作业输入的正确性,如格式等。2). 将输入文件切割成逻辑分片(InputSplit) ,一个InputSplit 将会被分配给一个独立的Map 任务3).提供Re..原创 2020-05-24 17:57:22 · 519 阅读 · 0 评论 -
hadoop MapReduce
简介:一种分布式的计算方式指定一个Map(映#x5C04;) 函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。Patternmap:(K1,V1) ->list(K2,V2) combine:(K2,list(V2))-> list(K2,V2) reduce:(K2,list(V2))-> list(K3,V3).Map 输出格式和Reduce 输入格式一定是相同的。基本流程Map.原创 2020-05-24 17:16:45 · 127 阅读 · 0 评论 -
YARN-Failover
失败的类型1. 程序问题2.进程崩溃3. 硬件问题失败处理1 任务失败1)运行时异常或者JVM 退出都会报告给ApplicationMaster2)通过心跳来检查挂住的任务(timeout),会检查多次(可配置),才判断改任务是否失效3). 一个作业的任务失败率超过配置,则任务改作业失败4).失败的任务或作业都会有ApplicationMaster 重新运行2. ApplicationMaster 失败1). ApplicationMaster 定时发送心跳信号到原创 2020-05-24 16:18:34 · 243 阅读 · 0 评论 -
Hadoop Container
YARN-Container1 基本的资源单位(CPU,内存等)2. Container 可以加载任意程序,而且不限于java3. 一个Node 可以包含多个·Container,也可以是一个大的Container4. ApplicationMaster 可以根据需要,动态申请和释放...原创 2020-05-24 15:33:44 · 319 阅读 · 1 评论 -
Hadoop ApplicationMaster
YARN-ApplicationMaster单个作业的资源管理和任务监控具体功能描述:1. 计算应用的资源需求,资源可以是静态或动态计算的,静态的一般是Client 申请时就指定了,动态则需要ApplicationMaster 根据应用的运行状态来决定2. 根据数据来申请对应位置的资源(Data Locality)3. 向ResourceManager申请资源,与NodeManager 交互运行程序的运行和监控,监控申请的资源的使用情况,监控作业进度。4.跟踪任务状态和进度,定时向R原创 2020-05-24 15:12:10 · 621 阅读 · 0 评论 -
Hadoop NodeManager
Node 节点下的Container 管理1)启动时向ResourceManager 注册并定时发送心跳消息,等待ResourceManager 的指令2)监控Conta 的运行,维护Container 的生命周期,监控Container 的资源使用情况3) 启动或停止Container,管理任务运行时的依赖包(根据ApplicationMaster 的需要,启动Container 之前将需要的程序及其依赖包,配置文件等到本地)内部结构...原创 2020-05-24 14:48:51 · 768 阅读 · 0 评论 -
Hadoop ResourceManager
YARN-ResourceManager负责全局的资源管理金额任务调度,把整个集群当成计算资源池,只关注分配,不管应用,且不负责容错。资源管理1)以前资源是每个节点分成一个个的Map slot和Reduce slot ,现在施一个个Container,每个Container 可以根据需要运行ApplicationMaster, Map, Reduce 或者任意的程序。2)以前的资源分配是静态的,目前是动态的,资源利用率更高。3)Container 是资源申请的单位,一个资源申请格式:&l原创 2020-05-20 18:07:32 · 1407 阅读 · 0 评论 -
Hadoop YARN
1.旧的MapReduceJobTracker: 负责资源管理,跟踪资源消耗和可用性,作业生命周期管理(调度作业任务,跟踪进度,为任务提供容错)TaskTrader: 加载或关闭任务,定时报告任务状态此架构会有以下问题:(1) JobTracker 是MapReduce 的集中处理点,存在单点故障(2) JobTracker 完成了太多的任务,造成了过多的资源消耗,当MapReduce job 非常多的时候,会造成很大的内存开销,这也是业界普遍总结出老Hadoop 的MapReduc原创 2020-05-20 11:07:03 · 160 阅读 · 0 评论 -
Hadoop 命令工具
HDFS-命令工具fsck: 检查文件的完整性start-balancer.sh: 重新平衡HDFShdfs dfs -copyFromLocal 从本地磁盘复制文件到HDFS。原创 2020-05-20 09:20:58 · 116 阅读 · 0 评论 -
hadoop 可靠性
HDFS-可靠性1. DataNode 可以失效DataNode 会定时发送心跳到NameNode,如果一段时间内NameNode没有收到DataNOde的心跳消息,则认为其失效,此时NameNode 就会将该节点的数据(从该节点的复制节点中获取)复制到另外的DataNode 中。2. 数据可以毁坏无论是写入时还是硬盘本身的问题,只要数据有问题(读取时通过校验码来检测),都可以通过其他的复制节点读取,同时还会再复制一份到健康的节点中3.NameNode 不可靠。...原创 2020-05-20 09:15:26 · 383 阅读 · 0 评论 -
Hadoop-读文件
HDFS-读文件原创 2020-05-20 09:09:29 · 153 阅读 · 0 评论 -
Hadoop 写文件
1.客户端将文件写入本地磁盘的HDFS Client 文件中2. 当临时文件大小达到一个block 大小时,HDFS client 通知NameNode,申请写入文件3. NameNode 在HDFS 的文件系统中创建一个文件,并把该block id和要写入·的DataNode的列表返回给客户端4 客户端收到这些信息后,将临时文件写入DataNodes4.1 客户端将文件内容写入第一个DataNode(一般以4kb 为单位进行传输)4.2 第一个DataNode接收后,将数据写入本地..原创 2020-05-19 23:52:36 · 390 阅读 · 0 评论 -
Hadoop -HDFS
全称:分布式文件系统‘’Block数据块:1基本存储单元,一般大小为64M(配置大的主要是因为:1) 减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间;2)减少管理块的数据开销,每个块都需要在NameNode 上有对用的记录;3) 对数据块进行读写,减少建立网络的连接成本。2. 一个大文件会被拆分成一个个的块,然后存储于不同的机器,如果一个文件少于Block 大小,那么实际占用的空间为其文件的大小。3.基本的读写单位,类似于磁盘的页,每次都是读写一个块。4. ..原创 2020-05-19 18:25:07 · 164 阅读 · 0 评论 -
Hadoop-简介
Hadoop 简介: hadoop 可运行于一般的商用服务器上,具有高容错,高可靠性,高扩展性等特点适合写一次,读多次的场景。适合:大规模数据,流式数据(写一次,读多次),商用硬件(一般硬件)不适合:低延时的数据访问,大量的小文件,频繁修改文件(基本就是写1次)Hadoop 架构:HDFS:分布式文件存储YARN: 分布式资源管理MapReduce: 分布式计算Others:利用YARN 的资源管理功能实现其他的数据处理方式内部各个节点基本都是采用Master-Wor原创 2020-05-19 16:56:42 · 176 阅读 · 0 评论