董可伦

已经发布的博客可能有小错误不能及时更新,可以在我的个人博客:https://dongkelun.com查看最新版本...

Scala学习笔记

我的原创地址:https://dongkelun.com/2018/12/14/scalaLearningNotes/ 前言 之前看Scala编程思想学习Scala,只看完了一半多,就没再继续深入学习,导致一些Scala基础知识还不知道,而且过去这么长时间了,之前学过的也遗忘了,所以这里主要记录自...

2019-01-16 16:13:20

阅读数:19

评论数:0

Hive分桶表学习总结

前言 学习总结一下Hive的分桶表。 分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 优点:1、提高join查询效率 2、提高抽样效率 1、建表 通过 clustered by(字段名) into bucket_num b...

2018-12-12 09:24:18

阅读数:50

评论数:0

Spark操作Hive分区表

我的原创地址:https://dongkelun.com/2018/12/04/sparkHivePatition/ 前言 前面学习总结了Hive分区表,现在学习总结一下Spark如何操作Hive分区表,包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表...

2018-12-07 00:11:32

阅读数:186

评论数:0

Hive内部表和外部表

我的原创地址:https://dongkelun.com/2018/12/03/hiveInternalAndExternalTables/ 前言 总结一下Hive的内部表和外部表以及两者的区别。 1、建表语句 1.1 内部表 平时创建的普通表为内部表 create table `test_int...

2018-12-05 23:13:43

阅读数:21

评论数:0

Hive分区表学习总结

前言 用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。 分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。 Hive分区分为静态分区和动态分区 1、建表语句 先用一个有分区字段的分区表进...

2018-12-04 12:20:47

阅读数:25

评论数:0

Echarts中国地图三级钻取

我的原创地址:https://dongkelun.com/2018/11/27/echartsChinaMap/ 前言 最近其实一直在用Echarts写前端,之前也想过总结一下Echarts的用法,但是官网的例子已经很全了。写这篇博客是因为Echarts官网把很多地图的例子都去掉了,且不能下载...

2018-11-27 18:36:26

阅读数:130

评论数:0

打印(获取)HDFS路径下所有的文件名(包括子目录下的)

我的原创地址:https://dongkelun.com/2018/11/20/getAllHDFSFileNames/ 前言 自己有个需求,如题,需要获取HDFS路径下所有的文件名,然后根据文件名用Spark进行后续操作。想了一下用Spark好像不太容易获取到,还要递归的去获取子目录下的文件名,...

2018-11-21 00:16:52

阅读数:239

评论数:0

通过Vue CLI 快速创建Vue项目并部署到tomcat

我的原创地址:https://dongkelun.com/2018/11/19/vueCliCreateProject/ 前言 最近一直在写前端,用的是JSP,但是很多人都说JSP已经过时了。既然做了几个月的前端,那就把前端学的好一点,学点新技术,跟上潮流。感觉Vue挺火的,所以这几天学了一下Vu...

2018-11-20 09:17:31

阅读数:101

评论数:0

Spark 通过 spark-submit 设置日志级别

title: Spark 通过 spark-submit 设置日志级别 date: 2018-11-16 tags: Spark spark-submit copyright: true reward: true toc: true 我的原创地址:https://d...

2018-11-16 16:03:33

阅读数:304

评论数:0

Centos7 Tomcat9 安装笔记

我的原创地址:https://dongkelun.com/2018/09/02/sparkMapPartitions/ 前言 有两个月没更新博客,部分原因是这两月的工作一直没写Spark程序,而是在写前端,所以虽然期间一直想写但是没有想出从哪方面入手。后端框架用的SpringBoot,前端用的...

2018-11-16 15:37:27

阅读数:53

评论数:0

Spark性能优化:基于分区进行操作

我的原创地址:https://dongkelun.com/2018/09/02/sparkMapPartitions/ 前言(摘自Spark快速大数据分析) 基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为...

2018-09-07 15:09:28

阅读数:166

评论数:0

利用Spark实现Oracle到Hive的历史数据同步

我的原创地址:https://dongkelun.com/2018/08/27/sparkOracle2Hive/ 1、需求背景 和上一篇文章Spark通过修改DataFrame的schema给表字段添加注释一样,通过Spark将关系型数据库(以Oracle为例)的表同步的Hive,这里讲的只...

2018-09-03 13:43:46

阅读数:281

评论数:0

Spark通过修改DataFrame的schema给表字段添加注释

我的原创地址:https://dongkelun.com/2018/08/20/sparkDfAddComments/ 1、需求背景 通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法: * 用S...

2018-09-03 13:41:58

阅读数:461

评论数:0

Spark创建空的DataFrame

我的原创地址:https://dongkelun.com/2018/08/14/sparkEmptyDataFrame/ 前言 本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为自己在...

2018-08-16 20:05:19

阅读数:1250

评论数:0

Spark 创建RDD、DataFrame各种情况的默认分区数

我的原创地址:https://dongkelun.com/2018/08/13/sparkDefaultPartitionNums/ 前言 熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaul...

2018-08-14 10:55:37

阅读数:1784

评论数:10

Spark UDF使用详解及代码示例

我的原创地址:https://dongkelun.com/2018/08/02/sparkUDF/ 前言 本文介绍如何在Spark Sql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(Spark2.x...

2018-08-03 09:17:53

阅读数:1918

评论数:0

通过数据库客户端界面工具DBeaver连接Hive

我的原创地址:https://dongkelun.com/2018/07/13/dbeaverConnectHive/ 前言 本文讲解如何通过数据库客户端界面工具DBeaver连接hive,并解决驱动下载不下来的问题。 1、为什么使用客户端界面工具 为什么使用客户端...

2018-08-03 09:16:25

阅读数:955

评论数:0

HDFS DataNode启动异常:/opt/jdk1.8.0_151/bin/java:权限不够

我的原创地址:https://dongkelun.com/2018/07/10/HadoopException/ 前言 这个异常是在在ambari里启动DataNode产生的,其实这个问题很久就发现了,只是没时间去处理,所以之前把发生问题的slave1节点给移除了,现在有时间处理,就又把sla...

2018-08-03 09:15:09

阅读数:431

评论数:0

ambari 异常总结及解决办法

我的原创地址:https://dongkelun.com/2018/07/10/ambariExceptions/ 前言 本文总结在使用ambari时产生的异常,以及如何解决的。 如果发生了异常,在界面上不能直观的看出异常的原因,那么我一般通过查看日志的方法解决。 通过下面的命令查看 ...

2018-08-03 09:13:39

阅读数:781

评论数:0

spark-submit报错:Application application_1529650293575_0148 finished with failed status

转载请务必注明原创地址为:https://dongkelun.com/2018/07/06/sparkSubmitException1/ 前言 记录spark-submit提交Spark程序出现的一个异常,以供第一次出现这种异常且不知道原因,该怎么解决的的同学参考。 1、异常信息 ...

2018-07-11 09:22:26

阅读数:1042

评论数:2

提示
确定要删除当前文章?
取消 删除
关闭
关闭