大数据相关
mamba10
- -.
展开
-
【干货】一文理解Druid原理架构(时序数据库,不是ali的数据库连接池)
Druid.io(以下简称Druid)是2013年底开源出来的, 主要解决的是对实时数据以及较近时间的历史数据的多维查询提供高并发(多用户),低延时,高可靠性的问题。Druid简介:Druid是一个为在大数据集之上做实时统计分析而设计的开源数据存储。这个系统集合了一个面向列存储的层,一个分布式、shared-nothing的架构,和一个高级的索引结构,来达成在秒级以内对十亿行级别的表进行任...转载 2018-09-04 10:21:09 · 683 阅读 · 0 评论 -
大话Spark(1)-Spark概述与核心概念
说到Spark就不得不提MapReduce/Hadoop, 当前越来越多的公司已经把大数据计算引擎从MapReduce升级到了Spark. 至于原因当然是MapReduce的一些局限性了, 我们一起先来看下Mapreduce的局限性和Spark如何做的改进.Spark概述MapReduce局限性1 仅支持Map和Reduce两种操作2 处理效率极低Map中间结果写磁盘,Red...原创 2019-05-19 10:25:07 · 160 阅读 · 0 评论 -
详细讲解MapReduce二次排序过程
我在15年处理大数据的时候还都是使用MapReduce, 随着时间的推移, 计算工具的发展, 内存越来越便宜, 计算方式也有了极大的改变. 到现在再做大数据开发的好多同学都是直接使用spark, hive等工具, 很少有再写MapReduce的了.这里整理一下MapReduce中经常用到的二次排序的方法, 全当复习.##简介二次排序(secondary sort)问题是指在Reduce阶段对...原创 2019-05-16 12:22:32 · 675 阅读 · 0 评论 -
大话Spark(2)-Spark on Yarn运行模式
Spark On Yarn 有两种运行模式:Yarn - Cluster Yarn - Client他们的主要区别是:Cluster:Spark的Driver在App Master主进程内运行, 该进程由集群上的YARN管理, 客户端可以在启动App Master后退出.Client:Driver在提交作业的Client中运行, App Master仅用于从YARN请求资源.这里...原创 2019-05-21 23:39:46 · 259 阅读 · 0 评论 -
大话Spark(4)-一文理解MapReduce Shuffle和Spark Shuffle
Shuffle本意是混洗, 洗牌的意思, 在MapReduce过程中需要各节点上同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则聚集到一起的过程成为Shuffle.在Hadoop的MapReduce框架中, Shuffle是连接Map和Reduce之间的桥梁, Map的数据要用到Reduce中必须经过Shuffle这个环节. 由于Shuffle涉及到磁盘的读写和网络的...原创 2019-05-28 13:04:35 · 348 阅读 · 0 评论 -
如何进BAT,有了这个篇面试秘籍,成功率高达80%!!(附资料)
多年前自己刚来北京找工作的时候,面了一个星期 面了七八家公司才拿到一个offer。而上次跳槽面了不到10家公司基本全过而且都给到了期望的薪资,本来自己在面试前没想到能够这么顺利,回想起来还是自己准备的方法比较得当!先说前提此方法适用于培训机构,专科,普通本科毕业的同学,工作经验在1到5年之间。(985,211大学的同学或者研究生,技术大拿可以不用往下看了,因为他们本身的面试通过率就很高。...原创 2019-06-04 12:30:24 · 167 阅读 · 0 评论