董可伦

已经发布的博客可能有小错误不能及时更新,可以在我的个人博客:https://dongkelun.com查看最新版本...

排序:
默认
按更新时间
按访问量

Spark性能优化:基于分区进行操作

我的原创地址:https://dongkelun.com/2018/09/02/sparkMapPartitions/ 前言(摘自Spark快速大数据分析) 基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为...

2018-09-07 15:09:28

阅读数:53

评论数:0

利用Spark实现Oracle到Hive的历史数据同步

我的原创地址:https://dongkelun.com/2018/08/27/sparkOracle2Hive/ 1、需求背景 和上一篇文章Spark通过修改DataFrame的schema给表字段添加注释一样,通过Spark将关系型数据库(以Oracle为例)的表同步的Hive,这里讲的只...

2018-09-03 13:43:46

阅读数:61

评论数:0

Spark通过修改DataFrame的schema给表字段添加注释

我的原创地址:https://dongkelun.com/2018/08/20/sparkDfAddComments/ 1、需求背景 通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法: * 用S...

2018-09-03 13:41:58

阅读数:76

评论数:0

Spark创建空的DataFrame

我的原创地址:https://dongkelun.com/2018/08/14/sparkEmptyDataFrame/ 前言 本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为自己在...

2018-08-16 20:05:19

阅读数:326

评论数:0

Spark 创建RDD、DataFrame各种情况的默认分区数

我的原创地址:https://dongkelun.com/2018/08/13/sparkDefaultPartitionNums/ 前言 熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaul...

2018-08-14 10:55:37

阅读数:556

评论数:4

Spark UDF使用详解及代码示例

我的原创地址:https://dongkelun.com/2018/08/02/sparkUDF/ 前言 本文介绍如何在Spark Sql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(Spark2.x...

2018-08-03 09:17:53

阅读数:376

评论数:0

通过数据库客户端界面工具DBeaver连接Hive

我的原创地址:https://dongkelun.com/2018/07/13/dbeaverConnectHive/ 前言 本文讲解如何通过数据库客户端界面工具DBeaver连接hive,并解决驱动下载不下来的问题。 1、为什么使用客户端界面工具 为什么使用客户端界面工具而不用命令行...

2018-08-03 09:16:25

阅读数:268

评论数:0

HDFS DataNode启动异常:/opt/jdk1.8.0_151/bin/java:权限不够

我的原创地址:https://dongkelun.com/2018/07/10/HadoopException/ 前言 这个异常是在在ambari里启动DataNode产生的,其实这个问题很久就发现了,只是没时间去处理,所以之前把发生问题的slave1节点给移除了,现在有时间处理,就又把sla...

2018-08-03 09:15:09

阅读数:157

评论数:0

ambari 异常总结及解决办法

我的原创地址:https://dongkelun.com/2018/07/10/ambariExceptions/ 前言 本文总结在使用ambari时产生的异常,以及如何解决的。 如果发生了异常,在界面上不能直观的看出异常的原因,那么我一般通过查看日志的方法解决。 通过下面的命令查看 ...

2018-08-03 09:13:39

阅读数:257

评论数:0

spark-submit报错:Application application_1529650293575_0148 finished with failed status

转载请务必注明原创地址为:https://dongkelun.com/2018/07/06/sparkSubmitException1/ 前言 记录spark-submit提交Spark程序出现的一个异常,以供第一次出现这种异常且不知道原因,该怎么解决的的同学参考。 1、异常信息 ...

2018-07-11 09:22:26

阅读数:426

评论数:0

Spark DataFrame按某列降序排序

转载请务必注明原创地址为:https://dongkelun.com/2018/07/04/sparkDfSortDesc/ 前言 本文总结如何将DataFrame按某列降序排序,因为Spark默认的排序方式为升序,而降序的用法和java语言等又不一样,所以需要特地总结记录一下其用法。 ...

2018-07-08 19:56:00

阅读数:1282

评论数:0

Spark获取当前分区的partitionId

转载请务必注明原创地址为:https://dongkelun.com/2018/06/28/sparkGetPartitionId/ 前言 本文讲解Spark如何获取当前分区的partitionId,这是一位群友提出的问题,其实只要通过TaskContext.get.partitionId(我...

2018-07-06 16:47:26

阅读数:468

评论数:0

SparkStreaming+Kafka 实现统计基于缓存的实时uv

转载请务必注明原创地址为:https://dongkelun.com/2018/06/25/KafkaUV/ 前言 本文利用SparkStreaming+Kafka实现实时的统计uv,即独立访客,一个用户一天内访问多次算一次,这个看起来要对用户去重,其实只要按照WordCount的思路,最后输...

2018-07-06 16:45:20

阅读数:850

评论数:0

通过offsets.retention.minutes设置kafka offset的过期时间

转载请务必注明原创地址为:https://dongkelun.com/2018/06/21/modifyKafkaOffsetTime/ 前言 本文记录博主如何设置kafka的offset过期时间并测试其效果 1、offsets.retention.minutes 通过修改offset...

2018-07-06 16:43:58

阅读数:371

评论数:0

Spark Streamming+Kafka提交offset实现有且仅有一次

转载请务必注明原创地址为:https://dongkelun.com/2018/06/20/sparkStreamingOffsetOnlyOnce/ 前言 本文讲Spark Streamming使用Direct方式读取Kafka,并在输出(存储)操作之后提交offset到Kafka里实现程序...

2018-07-06 16:41:05

阅读数:1059

评论数:0

spark-submit提交Spark Streamming+Kafka程序

转载请务必注明原创地址为:https://dongkelun.com/2018/06/19/sparkSubmitKafka/ 前言 Spark Streaming本身是没有Kafka相关的jar包和API的,如果想利用Spark Streaming获取Kafka里的数据,需要自己将依赖添加S...

2018-06-28 17:09:31

阅读数:150

评论数:0

SparkStreaming+Kafka 实现基于缓存的实时wordcount程序

转载请务必注明原创地址为:https://dongkelun.com/2018/06/14/updateStateBykeyWordCount/ 前言 本文利用SparkStreaming和Kafka实现基于缓存的实时wordcount程序,什么意思呢,因为一般的SparkStreaming的...

2018-06-25 09:44:58

阅读数:183

评论数:0

Spark架构原理

转载请务必注明原创地址为:https://dongkelun.com/2018/06/09/sparkArchitecturePrinciples/ 前言 本文总结了Spark架构原理,其中主要包括五个组件:Driver、Master、Worker、Executor和Task,简要概括了每个组...

2018-06-22 09:56:58

阅读数:138

评论数:0

Spark 持久化(cache和persist的区别)

转载请务必注明原创地址为:https://dongkelun.com/2018/06/03/sparkCacheAndPersist/ 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其...

2018-06-20 10:18:55

阅读数:517

评论数:4

Scala日期操作

转载请务必注明原创地址为:https://dongkelun.com/2018/06/01/scalaDate// 前言 本文主要记录我自己对日期格式数据的一些常用操作,主要目的是备忘,方便随时查阅。本文没有将代码封装为函数,如果有需要的可以自行封装,注意每一部分的代码会依赖前面代码里的变量。...

2018-06-15 09:06:53

阅读数:1372

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭