- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 web分层架构及责任分离之我想我见
Terms:Client:发送请求,End User。Controller:调度请求,调用Service完成业务。会接收到复杂的数据类型,需要进行相应的校验、过滤、包装转换成干净的BO。Service:业务层,真正的业务实现在这里完成。接收BO,进行BO的拆分,组合,再包装形成新的BO or Entity,然后调用Repository或者其他Web Container暴漏出来的Service去
2017-11-29 14:40:25 323
原创 Spark Shuffle解密
Spark Shuffle解密继Shuffle解密(MapReduce Shuffle过程)博文后的又一解密性博文。(to be done)
2017-11-23 23:08:29 328
原创 MapJoin和ReduceJoin区别及优化
MapJoin和ReduceJoin区别Map-side Join(Broadcast join)思想: 小表复制到各个节点上,并加载到内存中;大表分片,与小表完成连接操作。两份数据中,如果有一份数据比较小,小数据全部加载到内存,按关键字建立索引。大数据文件作为map的输入,对map()函数每一对输入,都能够方便的和已加载到内存的小数据进行连接。把连接结果按key输出,经过shuffle阶段,
2017-11-18 11:17:10 11676
原创 从RDD角度来剖析Spark内部原理
从RDD角度来剖析Spark内部原理1 Spark的核心 — RDD?1.1 RDD的5个属性1.2 RDD的特性1.3 What's RDD?在物理上,RDD对象实质上是一个 元数据结构,存储着 Block、Node等的映射关系,以及其他的元数据信息。一个RDD就是一组分区,在物理存储上,RDD的每个分区对应的就是一个Block,Block可以存储在内存中
2017-11-11 09:52:53 566
原创 MapReduce作业执行流程
MapReduce作业执行流程0 准备阶段0.1 回顾hadoop配置文件mapred-site.xml mapreduce.framework.name yarn Hadoop 2.x引入了一种新的执行机制。这种新机制(MR 2)建立在一个名为YARN的系统上。而用于执行的框架通过 “mapreduce.framework.name” 属性
2017-11-10 16:50:56 5404 2
原创 Zookeeper问题汇总
Zookeeper问题汇总1 Zookeeper集群启动报错启动客户端一直报错:2016-05-06 01:58:23,980 [myid:] - INFO [main-SendThread(localhost:2181):ClientCnxn$SendThread@975] - Opening socket connection to server localhost/0:
2017-11-09 13:55:33 1308
原创 Spark Streaming中,增大任务并发度的方法有哪些?
Spark Streaming中,增大任务并发度的方法有哪些?0 准备阶段Q: 在Spark集群中,集群的节点个数、RDD分区个数、CPU内核个数三者与并行度的关系是什么?我们先梳理一下Spark中关于并发度涉及的几个概念: File, Block, Split, Task, Partition, RDD以及节点数、Executor数、core数目的关系。
2017-11-09 09:44:17 6978
原创 Shuffle解密
Shuffle解密0. 准备阶段Map的输出会经过一个名为shuffle的过程,交给Reduce处理。在MapReduce流程中,为了让Reduce可以并行处理Map结果,必须对Map的输出进行一定的排序和分割,然后再交给对应的Reduce,而这个将Map输出进行进一步整理并交给Reduce的过程就是shuffle。shuffle是MapReduce的核心所在,shuffl
2017-11-08 07:56:15 575
原创 从Spark组件来剖析Spark的执行流程
从Spark组件来剖析Spark的执行流程0 从对比的视角来看Spark0.1 Hadoop VS Spark0.2 Spark VS FlinkFlink 作为后起之秀,发展迅猛,有Ali 的 Blink 在支撑,流行起来是早晚的事流计算:Flink要强一些,真正的流计算。不过,Spark Summit 2017 大会也有说到 Spark 2.2
2017-11-03 23:09:28 1796
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人