自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

谦蓦的博客

风格不被定义,做自己。

  • 博客(9)
  • 资源 (1)
  • 收藏
  • 关注

原创 web分层架构及责任分离之我想我见

Terms:Client:发送请求,End User。Controller:调度请求,调用Service完成业务。会接收到复杂的数据类型,需要进行相应的校验、过滤、包装转换成干净的BO。Service:业务层,真正的业务实现在这里完成。接收BO,进行BO的拆分,组合,再包装形成新的BO or Entity,然后调用Repository或者其他Web Container暴漏出来的Service去

2017-11-29 14:40:25 315

原创 Spark Shuffle解密

Spark Shuffle解密继Shuffle解密(MapReduce Shuffle过程)博文后的又一解密性博文。(to be done)

2017-11-23 23:08:29 315

原创 MapJoin和ReduceJoin区别及优化

MapJoin和ReduceJoin区别Map-side Join(Broadcast join)思想: 小表复制到各个节点上,并加载到内存中;大表分片,与小表完成连接操作。两份数据中,如果有一份数据比较小,小数据全部加载到内存,按关键字建立索引。大数据文件作为map的输入,对map()函数每一对输入,都能够方便的和已加载到内存的小数据进行连接。把连接结果按key输出,经过shuffle阶段,

2017-11-18 11:17:10 11430

原创 从RDD角度来剖析Spark内部原理

从RDD角度来剖析Spark内部原理1 Spark的核心 — RDD?1.1 RDD的5个属性1.2 RDD的特性1.3 What's RDD?在物理上,RDD对象实质上是一个 元数据结构,存储着 Block、Node等的映射关系,以及其他的元数据信息。一个RDD就是一组分区,在物理存储上,RDD的每个分区对应的就是一个Block,Block可以存储在内存中

2017-11-11 09:52:53 551

原创 MapReduce作业执行流程

MapReduce作业执行流程0 准备阶段0.1 回顾hadoop配置文件mapred-site.xml mapreduce.framework.name yarn Hadoop 2.x引入了一种新的执行机制。这种新机制(MR 2)建立在一个名为YARN的系统上。而用于执行的框架通过 “mapreduce.framework.name” 属性

2017-11-10 16:50:56 5323 2

原创 Zookeeper问题汇总

Zookeeper问题汇总1 Zookeeper集群启动报错启动客户端一直报错:2016-05-06 01:58:23,980 [myid:] - INFO [main-SendThread(localhost:2181):ClientCnxn$SendThread@975] - Opening socket connection to server localhost/0:

2017-11-09 13:55:33 1294

原创 Spark Streaming中,增大任务并发度的方法有哪些?

Spark Streaming中,增大任务并发度的方法有哪些?0 准备阶段Q: 在Spark集群中,集群的节点个数、RDD分区个数、CPU内核个数三者与并行度的关系是什么?我们先梳理一下Spark中关于并发度涉及的几个概念: File, Block, Split, Task, Partition, RDD以及节点数、Executor数、core数目的关系。

2017-11-09 09:44:17 6889

原创 Shuffle解密

Shuffle解密0. 准备阶段Map的输出会经过一个名为shuffle的过程,交给Reduce处理。在MapReduce流程中,为了让Reduce可以并行处理Map结果,必须对Map的输出进行一定的排序和分割,然后再交给对应的Reduce,而这个将Map输出进行进一步整理并交给Reduce的过程就是shuffle。shuffle是MapReduce的核心所在,shuffl

2017-11-08 07:56:15 547

原创 从Spark组件来剖析Spark的执行流程

从Spark组件来剖析Spark的执行流程0 从对比的视角来看Spark0.1 Hadoop VS Spark0.2 Spark VS FlinkFlink 作为后起之秀,发展迅猛,有Ali 的 Blink 在支撑,流行起来是早晚的事流计算:Flink要强一些,真正的流计算。不过,Spark Summit 2017 大会也有说到 Spark 2.2

2017-11-03 23:09:28 1770

hive数据表-小文件合并代码(java)

小文件合并代码,

2023-08-08

软件构造项目案例

软件构造项目案例:电厂职工培训管理系统。培训计划、部门、学员CRUD操作。

2016-01-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除