离线及实时计算
文章平均质量分 93
大数据相关技术栈入门(hadoop、hive、spark等)以及海量数据处理思路/方法
BoringError
字节跳动后端工程师 | 持续学习,保持敬畏
展开
-
Yarn:分布式资源调度原理分析
Yarn(Yet Another Resource Manager)是Hadoop 2.0版本推出的一款计算资源管理调度框架,用于统一对MapReduce、Hive等大数据计算任务提供资源调度管理服务。原创 2021-09-12 17:58:09 · 735 阅读 · 0 评论 -
MapReduce:分布式计算工作原理分析
为了解决大量数据的计算问题,分布式计算诞生了。在MapReduce出现前其实就存在了分布式计算的模式,但是MapReduce为分布式计算实现了一套通用化的流程与规范。MapReduce是Hadoop架构下的计算层,它把任务分割成小任务并分发到集群的机器上并行执行。原创 2021-09-05 17:41:01 · 2732 阅读 · 0 评论 -
HDFS:NameNode和2NN工作原理分析
在HDFS的组成中,最重要的两个核心进程分别为NameNode和DataNode,NameNode负责存储元数据信息,而DataNode则用于存放数据,而另一个进程被称为2NN(Secondary NameNode),它的作用在于辅助NameNode做日志合并,防止元数据丢失。原创 2021-08-28 22:36:02 · 807 阅读 · 0 评论 -
HDFS:从RAID到HDFS,看大数据存储王者的诞生
从RAID到HDFS:垂直拓展定有终点,但水平拓展没有尽头。原创 2021-08-15 17:40:02 · 802 阅读 · 0 评论 -
Hadoop HDFS-分布式存储系统入门、配置、使用及架构原理分析
HDFS是Hadoop的底层分布式存储系统,是Hadoop分布式计算的底层基石,要使用Hadoop就必须学习HDFS的使用。本文介绍了为什么要使用HDFS、HDFS的基本使用、核心架构组成以及分布式可靠性保障机制。原创 2021-04-26 17:21:21 · 3178 阅读 · 0 评论 -
Hadoop-架构、原理、实时计算和离线计算
后端系统通常会有一些需要超大数据集分析的业务场景,比如A/B Test、埋点数据分析、大数据关联图谱等,此时需要存储/分析的数据量以GB甚至是TB作为单位,由于数据量太大,MySQL进行分库分表后虽然可以解决数据存储问题,但是无法做到复杂数据分析及查询,大数据技术就应用在这种业务场景当中。作为一名后端开发者,需要对不同的业务场景选择合适的技术,学习入门大数据技术是有必要的。原创 2021-04-23 23:24:55 · 5714 阅读 · 8 评论