hive大数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive...

2016-07-27 13:41:06

阅读数:281

评论数:0

ip查找器

ip其实就是个数值,可以使用相关算法做映射。 给1个50m的文件内容有序,如下: min max address 10 100 BJ 120 150 SH 180 200 TJ ... 实现输入一个数值给出其address,eg:输入90,返回BJ,输入110,返回no ...

2016-07-27 12:00:08

阅读数:141

评论数:0

java实现二叉查找树

[java] view plain copy /**    * @author zyj8170  2011-2-13    *     * 此程序实现一个二叉查找树的功能,可以进行动态插入、删除关键字;    * 查询给定关键字、最小关键字、最大关键字;转换为...

2016-07-27 11:53:22

阅读数:213

评论数:0

Hadoop Yarn 框架原理及运作机制

1.1 YARN 基本架构 YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。 其中ResourceMan...

2016-07-25 18:55:17

阅读数:388

评论数:0

java 快排

网上关于快速排序的算法原理和算法实现都比较多,不过java是实现并不多,而且部分实现很难理解,和思路有点不搭调。所以整理了这篇文章。如果有不妥之处还请建议。首先先复习一些基础。 1、算法概念。 快速排序(Quicksort)是对冒泡排序的一种改进。由C. A. R. Hoare在1962年...

2016-07-25 11:28:30

阅读数:233

评论数:0

如何使用Spark ALS实现协同过滤

本文主要记录最近一段时间学习和实现Spark MLlib中的协同过滤的一些总结,希望对大家熟悉Spark ALS算法有所帮助。 更新: 【2016.06.12】Spark1.4.0中MatrixFactorizationModel提供了recommendForAll方法实现离线批量推荐...

2016-07-15 15:12:38

阅读数:989

评论数:0

federated存储引擎实现跨服务器的数据访问

【前言】数据库之间的跨服务器的访问在实际的工作中经常用到,最常见的是不同数据库的数据比对和数据抽取。针对这个需求ORACLE可以通过透明网关和DBLINK的方式来满足;MySQL提供了存储引擎federated可以实现该功能; 【方案】federated+存储过程拉取数据  【1】FE...

2016-07-15 11:13:49

阅读数:450

评论数:0

离线安装cdh

关于CDH和Cloudera Manager CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环...

2016-07-07 15:01:39

阅读数:649

评论数:0

Linux运维利器之ClusterShell

Linux运维利器之ClusterShell 发表于2011-11-12 如果你有若干台数据库服务器,突然你想知道它们当前的即时负载情况,你会怎么办?挨个登录上去uptime一下?感觉有点傻,写个shell?浪费时间,直接用ClusterShell吧! Cluster...

2016-07-07 14:50:55

阅读数:775

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭