- 博客(6)
- 资源 (14)
- 问答 (10)
- 收藏
- 关注
原创 Shuffle过程介绍
摘要:腾讯分布式数据仓库基于开源软件Hadoop和Hive进行构建,TDW计算引擎包括两部分:MapReduce和Spark,两者内部都包含了一个重要的过程—Shuffle。本文对Shuffle过程进行解析,并对两个计算引擎的Shuffle过程进行比较。腾讯分布式数据仓库(Tencent distributed Data Warehouse, 简称TDW)基于开源软件Hadoop和Hiv...
2015-05-03 12:50:32 9214
转载 Shuffle 过程详解
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里
2015-05-03 12:47:03 458
原创 java 二分查找法
public class QueryDemo { public static void main(String[] args) { int[] arr2 = new int[] { 11, 3,32,34, 45, 56, 78 }; System.out.println("67在数组中的位置:" + halfSearch(arr2, 11)); } public static
2015-05-03 10:19:14 641
原创 java 简单排序
public class SortDemo { public static void main(String[] args) { int[] arr = { 12, 3, 4, 56, 688, 9 }; bubbleSort(arr); selectSort(arr); print(arr); } // 选择 public static void selectSort
2015-05-03 10:15:23 761
转载 hbase 为什么查询比较快
第一、数据分区存储(region) 通过rowkey可以快速地位到在那个region上,位置信息保存在hbase的meta表里。 每次查询都会有location cache的,所以htable里面的Hconnection 初始化的时候访问速度相对来说稍慢,客户端缓存截图如下。 随着数据越来越大,meta表的查询有可能遇到瓶颈,建议单独独立出成一个meta server。
2015-05-01 18:51:51 3404 1
转载 避免regionServer宕机
因为regionserver 的管理信息主要记录在zookeeper,regionserver的宕机判断依据是session expired。ok那么regionserver 和Zookeeper的session expired原因有哪些尼?1. 网络不好。2. Java full GC, 这会block所有的线程。如果时间比较长,也会导致session exp
2015-05-01 18:43:24 397
汪文君高并发编程实战视频 完整 未加密
2018-12-22
Logstash-Elsticsearch+kibana (阿里巴巴内部实现模型).pdf
2018-11-06
java面试宝典
2014-12-04
hystrix到底是如何解决雪崩的?
2018-02-25
maven如何自定义变量?
2017-07-27
maven pom如何找到其它依赖项目的路径???
2017-07-25
maven打包的时候怎么能把子项目的resouce资源打包进去?
2017-07-25
maven打包的时候怎么能把子项目的resouce资源打包进去?
2017-07-25
maven多模块开发,加载resource的时候???
2017-07-24
maven多模块开发,如果实现模块配置独立?
2017-07-24
cassandra 模糊查询怎么查?
2017-05-05
js 中的for循环 怎么每循环一次睡眠3秒???
2016-06-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人