![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 88
tom和cat
知识的搬运工
展开
-
双缓冲机制
在看HDFS Editlog写机制中提到了双缓冲机制针对写入本地磁盘文件,大量客户端同时写会导致写入本地磁盘文件时出现多线程安全问题,HDFS如何保证安全呢?两个方面对每个写入的edits log分配一个全局顺序递增的transactionid(txid),基于这个序号可以标识每个edits log的先后顺序。 针对txid,要保证全局顺序一致,就要加锁保证安全,也就是每个修改元数据的线程都要先拿到锁然后生成txid才能写入edits log流程:其他使用场景(1)逻辑处..原创 2021-08-25 15:55:16 · 789 阅读 · 0 评论 -
Hbase架构与读写
Hbase架构图client Client包含了访问HBase的接口 维护对应的cache加速HBase的访问,比如caceh的.META元数据信息 zookeeper 实现HMaster的高可用 保存了hbase的元数据信息,是所有的hbase表的寻址入口 对HMaster和HRegionServer实现了监控 HMaster 负责启动的时候分配Region到具体的RegionServer,执行行各种管理操作,比如Region的分割和合并。原创 2021-06-16 15:51:01 · 150 阅读 · 0 评论 -
大数据入门
大数据概念基本介绍Hadoop介绍Hadoop是一个基于java开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop包括一系列的类shell的命令,可直接操作HDFS以及其他Hadoop支持的文件系统(官方链接:https://hadoop.apache.org/docs/r1.0.4/cn/commands_manual.html)下图为Hadoop生态圈的一些组件Hadoop的核心是MapReduc.原创 2021-03-31 17:22:31 · 171 阅读 · 3 评论 -
MapReduce源码解析
MapReduce编程刨析:Mapmap函数是对一些独立元素组成的概念列表(如单词计数中每行数据形成的列表)的每一个元素进行指定的操作(如把每行数据拆分成不同单词,并把每个单词计数为1),用户可以自定义一个把数据拆分成不同单词并把单词计数为1的映射map函数),事实上每个元素都是被独立操作的,而原始列表没有被修改,因为这里创建了一个新的列表来保存新的答案。 1 2 3 4 5 6 7 8 9 10 11转载 2021-03-09 16:41:30 · 709 阅读 · 0 评论 -
MapReduce 流程解析
map 阶段对我们的数据进行分开计算,第二是 reduce 阶段,对 map 阶段计算产生的结果再进行汇总。还写了一个非常经典的,类似于Java 中 HelloWorld 一样的 WordCount 代码。今天我们就根据这个代码来阐述整个 MapReduce 的运行过程。先苦口婆心的告诉你,这个知识点是非常非常非常之重要,之前面的 5 家公司,有 3 家公司都问了这个过程,另外两家问了 Yarn 的运行机制,这是后面会去讲的内容,你必须得懂大体的流程是怎么样子,如果能去研究搞清楚每个细节,那当然最好转载 2021-03-08 14:32:15 · 681 阅读 · 0 评论