- 博客(10)
- 资源 (36)
- 收藏
- 关注
原创 spark操作mysql数据库
spark对mysql提供了一些基本的读写操作,今天这边文章主要从读写两个方面来讲。一、spark读取mysql数据库1、通过JdbcRdd来读取 首先看一下官方文档是如何介绍的翻译为:1、getConnection 返回一个已经打开的结构化数据库连接,JdbcRDD会自动维护关闭。2、sql 是查询语句,此查询语句必须包含两处占位符?来作为分割数据
2016-07-18 18:03:18 13237
原创 spark函数讲解:aggregate
函数原型:defaggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): UAggregate the elements of each partition, and then the results for all the partitions, using
2016-07-13 18:44:45 2522
转载 spark函数讲解:cogroup
cogroup:将多个RDD中同一个Key对应的Value组合到一起。最多可以组合四个RDD函数原型:def cogroup[W1, W2, W3](other1: RDD[(K, W1)], other2: RDD[(K, W2)], other3: RDD[(K, W3)], partitioner: Partitioner) : RDD[(K, (Itera
2016-07-13 17:20:05 5279
转载 Spark函数讲解:collectAsMap
/** * User: 过往记忆 * Date: 15-03-16 * Time: 上午09:24 * bolg: http://www.iteblog.com * 本文地址:http://www.iteblog.com/archives/1289 * 过往记忆博客,专注于hadoop、hive、spark、shark、flume的技术博客,大量的干货 * 过往记忆博客微信公共帐号:
2016-07-13 17:08:19 4315
转载 spark性能调优指南(四)(shuffle调优)
shuffle调优调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占到一小部分而已。因此
2016-07-12 18:34:49 1000
转载 Spark性能优化指南(三)(数据倾斜调优)
数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三
2016-07-12 18:11:40 894
转载 Spark性能优化指南(二)(资源调优)
本文转自美团技术博客:http://tech.meituan.com/spark-tuning-basic.html资源调优调优概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。
2016-07-12 17:31:32 1119
转载 Spark性能优化指南(一)(开发调优)
本文转自美团技术博客:http://tech.meituan.com/spark-tuning-basic.html前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中
2016-07-12 17:28:06 851
转载 hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启动一个reducer)。但是对于大量数据这将会消耗很长的时间去执行。 这里跟传统的sql还有一点
2016-07-12 17:07:14 829
原创 偏差和方差
偏差(Bias):描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。方差(Variance):描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。下面通过一个故事来讲解:想象你开着一架黑鹰直升机,得到命令攻击地面上一只敌军部队,于是你连打数十梭子,结果有一下几种情况:
2016-07-12 16:50:28 862
power chm5.7
2010-11-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人