大数据技术栈
分享市场主流的大数据技术
在DT时代的路上
本号主要分享大数据相关资讯,欢迎感兴趣的伙伴儿相互关注学习
展开
-
Spark常见面试问题介绍
1.Spark的Shuffle原理及调优?答:参考:spark的shuffle和Hadoop的shuffle(mapreduce)的区别和关系是什么?(1)shuffle原理当使用reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作的时候,会发生shuffle操作。Spark在DAG调度阶段将job划分成多个stage,上游stage做map操作,下游stage做reduce操作,其本质还是MR计算架构。Shuffle是连接map和r转载 2020-08-07 14:47:09 · 302 阅读 · 0 评论 -
Zookeeper原理解析
1.Zookeeper 的概述Zookeeper 是一个开源的分布式协调服务框架 ,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题2.Zookeeper的特点Zookeeper 本质上是一个分布式文件系统, 适合存放小文件,也可以理解为一个数据库在上图左侧, Zookeeper 中存储的其实是一个又一个 Znode, Znode 是 Zookeeper 中的节点Znode 是有路径的, 例如 /data/host1, /data/host2, 这个路径也可以理解为是 Z转载 2020-08-07 14:41:32 · 270 阅读 · 0 评论 -
ETL工作流程分解
在大数据处理的过程当中,ETL是非常重要的一个环节,数据引入到系统,进行初步的处理,以备后续的数据处理环节的需求。从事ETL工作的岗位从业者,就被称作大数据ETL工程师。今天我们就来聊聊ETL工作流程分解。简而言之,ETL的工作,就是输入各种数据源,输出是各种用于分析的表和数据文件。这个过程当中,就涉及到用来分析的数据是否易用、数据质量的好坏、数据是否完整、数据是否可信等关键性问题。ETL的一般过程ETL主要包含三大阶段,分别是数据抽取、数据转换、数据加载。1、数据抽取这个阶段的主要目标是汇总多种原创 2020-06-28 15:17:15 · 1972 阅读 · 0 评论 -
大数据核心技术解读
互联网时代,我们每天都在生产着大量的数据,并且这些数据被记录存储下来,不断地累积,数据规模越来越大,想要实现对数据的处理,就需要成熟的大数据技术框架来提供支持。今天的大数据前沿技术培训分享,我们就来对大数据核心技术做一个简单的入门介绍。在大数据当中,相当一部分的数据是半结构化、非结构化的,并且伴随着数据的快速新增,这些数据很快就形成了超大的规模,想要高效地完成对这些数据的处理,就需要一系列的数据处理技术。大数据前沿技术培训在大数据处理当中,核心的环节是数据存取、数据分析处理、数据结果呈现,而为了解决相原创 2020-06-01 16:04:28 · 320 阅读 · 0 评论 -
Flink比Spark快?大数据流处理的框架比较
在大数据专业术语里,流处理和批处理是非常重要的两个概念,而基于流处理和批处理的大数据处理框架,Flink和Spark,也是常常被大家拿来做比较的对象。而在实时流数据处理上,Flink性能似乎更加强劲,那么Flink为什么比Spark快呢,今天我们就来聊聊这个话题。Spark和Flink都是针对于实时数据处理的框架,并且两者也都在实际的工作当中表现出色,但是如果要深究两者在大数据处理的区别,我们需...原创 2020-04-08 15:41:49 · 825 阅读 · 0 评论 -
Hadoop是什么?有什么用处
在大数据时代,基于大数据技术的职位能够得到更好的发展机会,因此成为很多人的职业选择,在大数据技术学习当中,大家常常会听到的一个词就是Hadoop,这也是目前大数据处理的核心技术。很多刚开始学习的人,常常会问Hadoop是什么?有什么用处?下面加米谷大数据老师给大家简单介绍一下:所谓大数据,对于它的定义,是有典型的4V特征,包括Volume、Variety、Value和Velocity,翻译过来就...原创 2020-04-08 15:32:43 · 1266 阅读 · 0 评论 -
Flink环境搭建:Flink环境搭建步骤详解
在Flink学习的入门阶段,非常重要的一个过程就是Flink环境搭建,这是认识FLInk框架的第一步,也是为后续的理论学习和代码练习打下基础。今天加米谷大数据就为大家带来Flink环境搭建的步骤解析,帮助大家一步步来部署好Flink环境。Flink官方有三种部署模式,即Local、Cluster、Cloud三种环境。其中Local模式是最简单也是最基础的,在入门阶段可以作为尝试练习。而Clust...原创 2020-04-07 17:45:49 · 1740 阅读 · 0 评论 -
Flink应用场景分析
在数据剧增的今天,大数据技术也越来越被大家重视,而作为实时流计算的代表性框架之一,Flink在近几年的发展趋势无疑也是惊人的,一方面是Flink社区的活跃度,另一方面是Flink在大数据计算上的优异表现,都让我们知道,Flink落地应用的潜力所在。今天我们就主要来了解下Flink应用场景分析。Flink的提出,本身就是针对于实时流计算的,因为之前的无论是Hadoop框架还是Spark框架,都不能...原创 2020-02-19 17:15:30 · 841 阅读 · 0 评论