董可伦

已经发布的博客可能有小错误不能及时更新,可以在我的个人博客:https://dongkelun.com查看最新版本...

排序:
默认
按更新时间
按访问量

Spark创建空的DataFrame

我的原创地址:https://dongkelun.com/2018/08/14/sparkEmptyDataFrame/ 前言 本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为自己在...

2018-08-16 20:05:19

阅读数:3

评论数:0

Spark 创建RDD、DataFrame各种情况的默认分区数

我的原创地址:https://dongkelun.com/2018/08/13/sparkDefaultPartitionNums/ 前言 熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaul...

2018-08-14 10:55:37

阅读数:87

评论数:0

Spark UDF使用详解及代码示例

我的原创地址:https://dongkelun.com/2018/08/02/sparkUDF/ 前言 本文介绍如何在Spark Sql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(Spark2.x...

2018-08-03 09:17:53

阅读数:38

评论数:0

通过数据库客户端界面工具DBeaver连接Hive

我的原创地址:https://dongkelun.com/2018/07/13/dbeaverConnectHive/ 前言 本文讲解如何通过数据库客户端界面工具DBeaver连接hive,并解决驱动下载不下来的问题。 1、为什么使用客户端界面工具 为什么使用客户端界面工具而不用命令行...

2018-08-03 09:16:25

阅读数:61

评论数:0

HDFS DataNode启动异常:/opt/jdk1.8.0_151/bin/java:权限不够

我的原创地址:https://dongkelun.com/2018/07/10/HadoopException/ 前言 这个异常是在在ambari里启动DataNode产生的,其实这个问题很久就发现了,只是没时间去处理,所以之前把发生问题的slave1节点给移除了,现在有时间处理,就又把sla...

2018-08-03 09:15:09

阅读数:32

评论数:0

ambari 异常总结及解决办法

我的原创地址:https://dongkelun.com/2018/07/10/ambariExceptions/ 前言 本文总结在使用ambari时产生的异常,以及如何解决的。 如果发生了异常,在界面上不能直观的看出异常的原因,那么我一般通过查看日志的方法解决。 通过下面的命令查看 ...

2018-08-03 09:13:39

阅读数:57

评论数:0

spark-submit报错:Application application_1529650293575_0148 finished with failed status

转载请务必注明原创地址为:https://dongkelun.com/2018/07/06/sparkSubmitException1/ 前言 记录spark-submit提交Spark程序出现的一个异常,以供第一次出现这种异常且不知道原因,该怎么解决的的同学参考。 1、异常信息 ...

2018-07-11 09:22:26

阅读数:148

评论数:0

Spark DataFrame按某列降序排序

转载请务必注明原创地址为:https://dongkelun.com/2018/07/04/sparkDfSortDesc/ 前言 本文总结如何将DataFrame按某列降序排序,因为Spark默认的排序方式为升序,而降序的用法和java语言等又不一样,所以需要特地总结记录一下其用法。 ...

2018-07-08 19:56:00

阅读数:439

评论数:0

Spark获取当前分区的partitionId

转载请务必注明原创地址为:https://dongkelun.com/2018/06/28/sparkGetPartitionId/ 前言 本文讲解Spark如何获取当前分区的partitionId,这是一位群友提出的问题,其实只要通过TaskContext.get.partitionId(我...

2018-07-06 16:47:26

阅读数:195

评论数:0

SparkStreaming+Kafka 实现统计基于缓存的实时uv

转载请务必注明原创地址为:https://dongkelun.com/2018/06/25/KafkaUV/ 前言 本文利用SparkStreaming+Kafka实现实时的统计uv,即独立访客,一个用户一天内访问多次算一次,这个看起来要对用户去重,其实只要按照WordCount的思路,最后输...

2018-07-06 16:45:20

阅读数:639

评论数:0

通过offsets.retention.minutes设置kafka offset的过期时间

转载请务必注明原创地址为:https://dongkelun.com/2018/06/21/modifyKafkaOffsetTime/ 前言 本文记录博主如何设置kafka的offset过期时间并测试其效果 1、offsets.retention.minutes 通过修改offset...

2018-07-06 16:43:58

阅读数:153

评论数:0

Spark Streamming+Kafka提交offset实现有且仅有一次

转载请务必注明原创地址为:https://dongkelun.com/2018/06/20/sparkStreamingOffsetOnlyOnce/ 前言 本文讲Spark Streamming使用Direct方式读取Kafka,并在输出(存储)操作之后提交offset到Kafka里实现程序...

2018-07-06 16:41:05

阅读数:776

评论数:0

spark-submit提交Spark Streamming+Kafka程序

转载请务必注明原创地址为:https://dongkelun.com/2018/06/19/sparkSubmitKafka/ 前言 Spark Streaming本身是没有Kafka相关的jar包和API的,如果想利用Spark Streaming获取Kafka里的数据,需要自己将依赖添加S...

2018-06-28 17:09:31

阅读数:75

评论数:0

SparkStreaming+Kafka 实现基于缓存的实时wordcount程序

转载请务必注明原创地址为:https://dongkelun.com/2018/06/14/updateStateBykeyWordCount/ 前言 本文利用SparkStreaming和Kafka实现基于缓存的实时wordcount程序,什么意思呢,因为一般的SparkStreaming的...

2018-06-25 09:44:58

阅读数:64

评论数:0

Spark架构原理

转载请务必注明原创地址为:https://dongkelun.com/2018/06/09/sparkArchitecturePrinciples/ 前言 本文总结了Spark架构原理,其中主要包括五个组件:Driver、Master、Worker、Executor和Task,简要概括了每个组...

2018-06-22 09:56:58

阅读数:115

评论数:0

Spark 持久化(cache和persist的区别)

转载请务必注明原创地址为:https://dongkelun.com/2018/06/03/sparkCacheAndPersist/ 1、RDD 持久化 Spark 中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个 RDD 时,每个节点的其...

2018-06-20 10:18:55

阅读数:228

评论数:4

Scala日期操作

转载请务必注明原创地址为:https://dongkelun.com/2018/06/01/scalaDate// 前言 本文主要记录我自己对日期格式数据的一些常用操作,主要目的是备忘,方便随时查阅。本文没有将代码封装为函数,如果有需要的可以自行封装,注意每一部分的代码会依赖前面代码里的变量。...

2018-06-15 09:06:53

阅读数:534

评论数:0

Spark读取压缩文件

转载请务必注明原创地址为:https://dongkelun.com/2018/05/30/sparkGZ/ 前言 本文讲如何用spark读取gz类型的压缩文件,以及如何解决我遇到的各种问题。 1、文件压缩 下面这一部分摘自Spark快速大数据分析:   在大数据工作中,我们经常需要...

2018-06-05 22:40:02

阅读数:449

评论数:0

如何解决spark开发中遇到需要去掉文件前几行数据的问题

转载请务必注明原创地址为:https://dongkelun.com/2018/05/27/sparkDelFirstNLines/ 前言 我碰到的问题是这样的,我需要读取压缩文件里的数据存到hive表里,压缩文件解压之后是一个txt,这个txt里前几行的数据是垃圾数据,而这个txt文件太大,...

2018-06-02 18:05:09

阅读数:392

评论数:0

利用ogg实现oracle到kafka的增量数据实时同步

转载请务必注明原创地址为:https://dongkelun.com/2018/05/23/oggOracle2Kafka/ 前言 ogg即Oracle GoldenGate是Oracle的同步工具,本文讲如何配置ogg以实现Oracle数据库增量数据实时同步到kafka中,其中同步消息格式为...

2018-05-25 09:50:49

阅读数:1075

评论数:4

提示
确定要删除当前文章?
取消 删除
关闭
关闭