大数据
文章平均质量分 79
JavaBoot1992
这个作者很懒,什么都没留下…
展开
-
大数据学习 Yarn--MapReduce--HDFS整体流程详细总结
1、提交jar包程序到节点,想RM申请资源. 2、返回一个路径和一个task文件夹,task文件夹再这个路径中 3、转向hdfs文件存储系统找对应的文件,并对文件进行切片操作,然后会在task中创建jar(运行的java代码),job.split(文件的切片信息,默认情况下切片大小等于hdfs文件存储block大小,128M),job.xml(里面包含job运行所需的配置)。 4、向RM(资源老大)申请运行ApplicationMaster(mapTask管理)程序 5、初始化一个task,并放入队列中,.原创 2021-04-26 14:14:40 · 304 阅读 · 2 评论 -
大数据学习----------Yarn----------(八)基本操作,调度器,tool接口
Apache Hadoop默认的资源调度器是容量调度器。 CDH框架默认调度器是公平调度器原创 2021-04-29 10:00:13 · 292 阅读 · 0 评论 -
大数据学习----------MapReduce----------(七)Join,压缩
Hadoop reduce阶段迭代器重用问题 protected void reduce(Text key, Iterable<TableBean> values, Context context) throws IOException, InterruptedException { ArrayList<TableBean> orederBeans = new ArrayList<>(); TableBean pbBean = new T原创 2021-04-26 13:41:03 · 84 阅读 · 0 评论 -
大数据学习----------MapReduce----------(六)Shuffle机制,Partition 分区,WritableComparable 排序,Combiner 合并,数据输出
mapreduc详细工作流程 (1)MapTask 收集我们的 map()方法输出的 kv 对,放到内存缓冲区中 (2)从内存缓冲区不断溢出本地磁盘文件,可能会溢出多个文件 (3)多个溢出文件会被合并成大的溢出文件 (4)在溢出过程及合并的过程中,都要调用 Partitioner 进行分区和针对 key 进行排序 (5)ReduceTask 根据自己的分区号,去各个 MapTask 机器上取相应的结果分区数据 (6)ReduceTask 会抓取到同一个分区的来自不同 MapTask 的结果文件,Redu原创 2021-04-23 15:08:17 · 364 阅读 · 0 评论 -
大数据学习----------HDFS----------(四)NameNode 和 SecondaryNameNode工作机制和区别,DataNode工作机制
思考:类似导航的NameNode 中的元数据是存储在哪里的? 如果是存在磁盘,效率低下,如果是内存,服务器宕机后数据会消失,集群无法工作,因此产生在磁盘中备份元数据的FsImage。 但是如果内存数据更新后,FsImage的数据必须也要及时更新(防止宕机后数据不一致),效率会受影响,因此,引入 **Edits 文件(只进行追加操作,效率很高)**每当元数据有更新或者添加元数据时,修改内存中的元数据并追加到 Edits 中。这样,一旦 NameNode 节点宕机断电,可以通过 FsImage 和 Edits原创 2021-04-19 15:50:46 · 108 阅读 · 0 评论 -
大数据学习----------hadoop----------(三)HDFS优缺点,组成架构,Shell常用操作,Api操作,HDFS读写流程和节点距离
HDFS优点 HDFS缺点 HDFS架构 这里注意管理数据的块大小是根据磁盘的传输速度得来的,一盘磁盘传输速率为100M/s 所有块设置为128M 如果使用固态硬盘传输速率达到300M到400M,块可以设置大小为256M。 ...原创 2021-04-19 14:48:37 · 156 阅读 · 2 评论 -
大数据学习----------hadoop----------(二)数据拷贝,免密登入,集群配置
前提条件:VM虚拟机linux版本为 CentOS-7.5-x86-1804详细安装和配置步骤可以问度娘。软件资源我会上传上去,要关闭防火墙。 1、创建三台虚拟机为hadoop102,hadoop103,hadoop104都创建用户atguigu 卸载虚拟机自带jdk。 2、保证 Linux 系统 ifcfg-ens33 文件中 IP 地址、虚拟网络编辑器地址和 Windows 系 统 VM8 网络 IP 地址相同 ...原创 2021-04-15 08:57:42 · 232 阅读 · 0 评论 -
大数据学习----------hadoop----------(一)
1、hadoop 主要解决,海量数据的存储和计算。 优势:高可靠性(数据有备份),高扩展性(动态增加节点),高效性(多台服务器并行计算),高容错(失败的任务重新分配到其他服务器)。 2、hadoop组成 ...原创 2021-04-09 15:22:53 · 118 阅读 · 0 评论