辣壳先生-CSDN博客

转载 Scala篇

Scala教程https://blog.csdn.net/zhongqi2513/article/details/52233484

2018-12-06 09:22:22 145

在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:正常的数据分布理论上都是倾斜的，就是我们所说的20-80原理：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量 , 不同的数据字段可能的数据倾斜一般有两种情况:一种是唯一值非常少，极少数值有非常多的记录值(唯一值少于几千)一种是唯一值比较多，这个字段的某些值有远远多于其他值的记录数...

2018-10-14 10:42:32 229

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问...

2018-09-11 22:27:19 236

转载 HBase导入大数据三大方式之（三）——mapreduce+completebulkload 方式

做大数据时，经常需要用到将大量格式化的文本数据导入到hbase中。此处就用到的三种方式：hive类SQL语句方式、importtsv +completebulkload 方式、mapreduce+completebulkload 方式，做下简单示例。h...

2018-09-11 22:21:52 569

转载 HBase导入大数据三大方式之（二）——importtsv +completebulkload 方式

做大数据时，经常需要用到将大量格式化的文本数据导入到hbase中。此处就用到的三种方式：hive类SQL语句方式、importtsv +completebulkload 方式、mapreduce+completebulkload 方式，做下简单示例。上篇介...

2018-09-11 22:20:27 582

转载 HBase导入大数据三大方式之（一）——hive类SQL语句方式

做大数据时，经常需要用到将大量格式化的文本数据导入到hbase中。此处就用到的三种方式：hive类SQL语句方式、importtsv +completebulkload 方式、mapreduce+completebulkload 方式，做下简单示例。其中当...

2018-09-11 22:18:22 524

转载 Spark性能优化指南——基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多...

2018-09-09 21:32:05 115

转载排序算法---堆排序

摘要：作为选择排序的改进版，堆排序可以把每一趟元素的比较结果保存下来，以便我们在选择最小/大元素时对已经比较过的元素做出相应的调整。堆排序是一种树形选择排序，在排序过程中可以把元素看成是一颗完全二叉树，每个节点都大（小）于它的两个子节点，当每个节点都大于等于它的两个子节点时，就称为大顶堆，也叫堆有序；当每个节点都小于等于它的两个子节点时，就称为小顶堆。（大顶堆（有序堆）） ...

2018-08-21 21:35:38 375

AllIsWill的博客