漂浮

里面都是平时学习和工作中碰到的一些问题及解决方法，希望可以帮到大家。有不同见解的，可以在下面评论，反正我也不会看的。（开玩笑了）

09月 08月 07月 06月 03月 02月

原创 spark操作mysql数据库

spark对mysql提供了一些基本的读写操作，今天这边文章主要从读写两个方面来讲。一、spark读取mysql数据库1、通过JdbcRdd来读取首先看一下官方文档是如何介绍的翻译为：1、getConnection 返回一个已经打开的结构化数据库连接，JdbcRDD会自动维护关闭。2、sql 是查询语句，此查询语句必须包含两处占位符?来作为分割数据

2016-07-18 18:03:18 13237

原创 spark函数讲解：aggregate

函数原型：defaggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): UAggregate the elements of each partition, and then the results for all the partitions, using

2016-07-13 18:44:45 2522

转载 spark函数讲解：cogroup

cogroup：将多个RDD中同一个Key对应的Value组合到一起。最多可以组合四个RDD函数原型：def cogroup[W1, W2, W3](other1: RDD[(K, W1)], other2: RDD[(K, W2)], other3: RDD[(K, W3)], partitioner: Partitioner) : RDD[(K, (Itera

2016-07-13 17:20:05 5279

转载 Spark函数讲解：collectAsMap

/** * User: 过往记忆 * Date: 15-03-16 * Time: 上午09:24 * bolg: http://www.iteblog.com * 本文地址：http://www.iteblog.com/archives/1289 * 过往记忆博客，专注于hadoop、hive、spark、shark、flume的技术博客，大量的干货 * 过往记忆博客微信公共帐号：

2016-07-13 17:08:19 4315

转载 spark性能调优指南（四）（shuffle调优）

shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此，如果要让作业的性能更上一层楼，就有必要对shuffle过程进行调优。但是也必须提醒大家的是，影响一个Spark作业性能的因素，主要还是代码开发、资源参数以及数据倾斜，shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此

2016-07-12 18:34:49 1000

转载 Spark性能优化指南（三）（数据倾斜调优）

数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三

2016-07-12 18:11:40 894

转载 Spark性能优化指南（二）（资源调优）

本文转自美团技术博客：http://tech.meituan.com/spark-tuning-basic.html资源调优调优概述在开发完Spark作业之后，就该为作业配置合适的资源了。Spark的资源参数，基本都可以在spark-submit命令中作为参数设置。很多Spark初学者，通常不知道该设置哪些必要的参数，以及如何设置这些参数，最后就只能胡乱设置，甚至压根儿不设置。

2016-07-12 17:31:32 1119

转载 Spark性能优化指南（一）（开发调优）

本文转自美团技术博客：http://tech.meituan.com/spark-tuning-basic.html前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中

2016-07-12 17:28:06 851

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的，会对查询的结果做一次全局排序，所以说，只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理（不管有多少map，也不管文件有多少的block只会启动一个reducer）。但是对于大量数据这将会消耗很长的时间去执行。这里跟传统的sql还有一点

2016-07-12 17:07:14 829

原创偏差和方差

偏差（Bias）：描述的是预测值（估计值）的期望与真实值之间的差距。偏差越大，越偏离真实数据，如下图第二行所示。方差（Variance）：描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，如下图右列所示。下面通过一个故事来讲解：想象你开着一架黑鹰直升机，得到命令攻击地面上一只敌军部队，于是你连打数十梭子，结果有一下几种情况:

2016-07-12 16:50:28 862