自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

董可伦

已经发布的博客可能有小错误不能及时更新,可以在我的个人博客:https://dongkelun.com查看最新版本...

原创 Centos7 ELKB 7.2.0版本单机部署

前言 本人新手,本文记录简单的ELKB单机部署,ELKB分别指elasticsearch、logstash、kibana、filebeat,用的当前官网最新版本7.2.0,日志用的Nginx产生的日志。 Nginx可以参考我这篇:Nginx 安装配置,我本次用的Nginx和这篇文章是一样的,包括...

2020-01-08 20:16:49 104 0

原创 将Vue项目部署到Github Page上

前言 本文讲如何将Vue项目的dist文件夹部署到Github Page上,目的是可以在线访问前端效果,这样不需要自己购买服务器,当然任何静态文件夹都可以这样做,不止局限于Vue 操作步骤 1、首先在Git上建立一个项目,如vue-echarts-map 2、然后将本地项目push到远程mast...

2020-01-02 11:23:03 410 0

原创 Spark ML LR 用 setWeightCol 解决数据不平衡

前言 如题,记录在Spark ML LR中如何解决数据不平衡。参考:Dealing with unbalanced datasets in Spark MLlib 1、数据不平衡 指label == 1和label == 0 的数据比例的很多,如80%和20%,这样导致模型的结果的准确率也不平衡,...

2019-12-06 16:42:21 164 0

原创 Spark读取CSV异常 java.lang.ArrayIndexOutOfBoundsException:62

前言 记录一个异常 场景 Spark读取CSV文件,文件里的某些内容编码格式有问题或者有特殊字符 一种情况是 62,我碰到的这种,另一种是63,查资料查的 java.lang.ArrayIndexOutOfBoundsException:62 java.lang.ArrayIndexOutOfB...

2019-11-19 19:01:25 233 0

原创 Oracle和MySQL如何判断是否为空或NULL

我的原创地址:https://dongkelun.com/2019/05/29/oracleAndMysqlNull/ 前言 如题,本文总结Oracle和MySQL如何判断是否为空或NULL 1、Oracle 1.1 建表 CREATE TABLE TEST_NULL ( ID VARCHAR2...

2019-07-31 16:42:34 5565 0

原创 MySQL和Oracle字符串截取函数用法总结(比较)

我的原创地址:https://dongkelun.com/2019/05/28/mysqlAndOracleSubString/ 前言 本文总结MySQL和Oracle的字符串截取函数的用法 工作中MySQL和Oracle都用,有时会碰到两种数据库SQL用法的不同,就会上网查一下,但是时间久了,...

2019-06-03 21:35:10 379 0

原创 Nginx 安装配置

我的原创地址:https://dongkelun.com/2019/04/24/nginxInstallConf/ 前言 搞了这么久前端,是时候学习一下Nginx了~~ Nginx的作用:作为反向代理服务器、负载均衡 我目前是用来作为反向代理服务器~ 1、安装 安装很简单,我参考:CentOS...

2019-05-31 08:44:10 66 0

原创 Vue 自动获取本地ip,并打开浏览器

前言 功能如题,本文参考:https://www.jianshu.com/p/54daac2cc924,目的只是为了把网上查的资料做个笔记~ 以下均为vue cli2 创建的项目 自动打开浏览器 只需要在config/index.js里找到autoOpenBrowser将其设为true即可 获...

2019-05-29 18:45:09 1300 0

原创 Vue版本Echarts中国地图三级钻取及Vue踩坑笔记

前言 这段时间又搞起了前端,用Vue做一个项目,前段时间用html+css+js写了一个Echarts中国地图三级钻取,现在用Vue再实现一遍,主要用来练手,熟悉一下Vue的使用并记录一下期间遇到的一些坑及如何解决的。 1、演示地址 http://front-end.dongkelun.com/v...

2019-05-23 09:12:40 1235 2

原创 Spark 异常总结及解决办法

我的原创地址:https://dongkelun.com/2019/01/09/sparkExceptions/ 前言 总结Spark开发中遇到的异常及解决办法,之前也写过几篇,之所以不再一个异常写一篇博客,是因为现在Spark用的比较熟悉了一些,觉得没必要把异常信息写那么详细了,所以就把异常总结...

2019-02-28 08:54:04 3004 1

原创 Linux 安装 oh-my-zsh

我的原创地址:https://dongkelun.com/2018/12/29/linux-oh-my-zsh/ 前言 之前在大三实习的时候,用的纯Linux(Ubuntu)开发,然后Linux上装了oh-my-zsh。 优点: 1、界面比默认的好看一些 2、敲命令是提示、自动补全、搜索等比较方便...

2019-02-20 15:22:15 322 0

原创 Spark SQL 优化笔记

前言 记录自己在工作开发中遇到的SQL优化问题 1、避免用in 和 not in 解决方案: 用exists 和 not exists代替 用join代替 not exists示例 not in: select stepId,province_code,polyline from route_...

2019-02-01 16:21:49 509 3

原创 Scala学习笔记

我的原创地址:https://dongkelun.com/2018/12/14/scalaLearningNotes/ 前言 之前看Scala编程思想学习Scala,只看完了一半多,就没再继续深入学习,导致一些Scala基础知识还不知道,而且过去这么长时间了,之前学过的也遗忘了,所以这里主要记录自...

2019-01-16 16:13:20 115 0

原创 Hive分桶表学习总结

前言 学习总结一下Hive的分桶表。 分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。 优点:1、提高join查询效率 2、提高抽样效率 1、建表 通过 clustered by(字段名) into bucket_num b...

2018-12-12 09:24:18 632 0

原创 Spark操作Hive分区表

我的原创地址:https://dongkelun.com/2018/12/04/sparkHivePatition/ 前言 前面学习总结了Hive分区表,现在学习总结一下Spark如何操作Hive分区表,包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表...

2018-12-07 00:11:32 4912 3

原创 Hive内部表和外部表

我的原创地址:https://dongkelun.com/2018/12/03/hiveInternalAndExternalTables/ 前言 总结一下Hive的内部表和外部表以及两者的区别。 1、建表语句 1.1 内部表 平时创建的普通表为内部表 create table `test_int...

2018-12-05 23:13:43 91 0

原创 Hive分区表学习总结

前言 用了这么久的Hive,而没有认真的学习和使用过Hive的分区,现在学习记录一下。 分区表一般在数据量比较大,且有明确的分区字段时使用,这样用分区字段作为查询条件查询效率会比较高。 Hive分区分为静态分区和动态分区 1、建表语句 先用一个有分区字段的分区表进...

2018-12-04 12:20:47 144 0

原创 Echarts中国地图三级钻取

我的原创地址:https://dongkelun.com/2018/11/27/echartsChinaMap/ 前言 最近其实一直在用Echarts写前端,之前也想过总结一下Echarts的用法,但是官网的例子已经很全了。写这篇博客是因为Echarts官网把很多地图的例子都去掉了,且不能下载...

2018-11-27 18:36:26 2593 4

原创 打印(获取)HDFS路径下所有的文件名(包括子目录下的)

我的原创地址:https://dongkelun.com/2018/11/20/getAllHDFSFileNames/ 前言 自己有个需求,如题,需要获取HDFS路径下所有的文件名,然后根据文件名用Spark进行后续操作。想了一下用Spark好像不太容易获取到,还要递归的去获取子目录下的文件名,...

2018-11-21 00:16:52 6198 0

原创 通过Vue CLI 快速创建Vue项目并部署到tomcat

我的原创地址:https://dongkelun.com/2018/11/19/vueCliCreateProject/ 前言 最近一直在写前端,用的是JSP,但是很多人都说JSP已经过时了。既然做了几个月的前端,那就把前端学的好一点,学点新技术,跟上潮流。感觉Vue挺火的,所以这几天学了一下Vu...

2018-11-20 09:17:31 1494 0

原创 Spark 通过 spark-submit 设置日志级别

title: Spark 通过 spark-submit 设置日志级别 date: 2018-11-16 tags: Spark spark-submit copyright: true reward: true toc: true 我的原创地址:https://don...

2018-11-16 16:03:33 3789 0

原创 Centos7 Tomcat9 安装笔记

我的原创地址:https://dongkelun.com/2018/09/02/sparkMapPartitions/ 前言 有两个月没更新博客,部分原因是这两月的工作一直没写Spark程序,而是在写前端,所以虽然期间一直想写但是没有想出从哪方面入手。后端框架用的SpringBoot,前端用的...

2018-11-16 15:37:27 668 0

原创 Spark性能优化:基于分区进行操作

我的原创地址:https://dongkelun.com/2018/09/02/sparkMapPartitions/ 前言(摘自Spark快速大数据分析) 基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或创建随机数生成器等操作,都是我们应当尽量避免为...

2018-09-07 15:09:28 884 0

原创 利用Spark实现Oracle到Hive的历史数据同步

我的原创地址:https://dongkelun.com/2018/08/27/sparkOracle2Hive/ 1、需求背景 和上一篇文章Spark通过修改DataFrame的schema给表字段添加注释一样,通过Spark将关系型数据库(以Oracle为例)的表同步的Hive,这里讲的只...

2018-09-03 13:43:46 1210 0

原创 Spark通过修改DataFrame的schema给表字段添加注释

我的原创地址:https://dongkelun.com/2018/08/20/sparkDfAddComments/ 1、需求背景 通过Spark将关系型数据库(以Oracle为例)的表同步的Hive表,要求用Spark建表,有字段注释的也要加上注释。Spark建表,有两种方法: * 用S...

2018-09-03 13:41:58 2631 0

原创 Spark创建空的DataFrame

我的原创地址:https://dongkelun.com/2018/08/14/sparkEmptyDataFrame/ 前言 本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为自己在...

2018-08-16 20:05:19 6597 0

原创 Spark 创建RDD、DataFrame各种情况的默认分区数

我的原创地址:https://dongkelun.com/2018/08/13/sparkDefaultPartitionNums/ 前言 熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaul...

2018-08-14 10:55:37 8524 10

原创 Spark UDF使用详解及代码示例

我的原创地址:https://dongkelun.com/2018/08/02/sparkUDF/ 前言 本文介绍如何在Spark Sql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(Spark2.x...

2018-08-03 09:17:53 14427 9

原创 通过数据库客户端界面工具DBeaver连接Hive

我的原创地址:https://dongkelun.com/2018/07/13/dbeaverConnectHive/ 前言 本文讲解如何通过数据库客户端界面工具DBeaver连接hive,并解决驱动下载不下来的问题。 1、为什么使用客户端界面工具 为什么使用客户端...

2018-08-03 09:16:25 7977 1

原创 HDFS DataNode启动异常:/opt/jdk1.8.0_151/bin/java:权限不够

我的原创地址:https://dongkelun.com/2018/07/10/HadoopException/ 前言 这个异常是在在ambari里启动DataNode产生的,其实这个问题很久就发现了,只是没时间去处理,所以之前把发生问题的slave1节点给移除了,现在有时间处理,就又把sla...

2018-08-03 09:15:09 1840 0

原创 ambari 异常总结及解决办法

我的原创地址:https://dongkelun.com/2018/07/10/ambariExceptions/ 前言 本文总结在使用ambari时产生的异常,以及如何解决的。 如果发生了异常,在界面上不能直观的看出异常的原因,那么我一般通过查看日志的方法解决。 通过下面的命令查看 ...

2018-08-03 09:13:39 4315 1

原创 spark-submit报错:Application application_1529650293575_0148 finished with failed status

转载请务必注明原创地址为:https://dongkelun.com/2018/07/06/sparkSubmitException1/ 前言 记录spark-submit提交Spark程序出现的一个异常,以供第一次出现这种异常且不知道原因,该怎么解决的的同学参考。 1、异常信息 ...

2018-07-11 09:22:26 3566 2

原创 Spark DataFrame按某列降序排序

转载请务必注明原创地址为:https://dongkelun.com/2018/07/04/sparkDfSortDesc/ 前言 本文总结如何将DataFrame按某列降序排序,因为Spark默认的排序方式为升序,而降序的用法和java语言等又不一样,所以需要特地总结记录一下其用法。 ...

2018-07-08 19:56:00 14381 0

原创 Spark获取当前分区的partitionId

转载请务必注明原创地址为:https://dongkelun.com/2018/06/28/sparkGetPartitionId/ 前言 本文讲解Spark如何获取当前分区的partitionId,这是一位群友提出的问题,其实只要通过TaskContext.get.partitionId(我...

2018-07-06 16:47:26 3805 0

原创 SparkStreaming+Kafka 实现统计基于缓存的实时uv

转载请务必注明原创地址为:https://dongkelun.com/2018/06/25/KafkaUV/ 前言 本文利用SparkStreaming+Kafka实现实时的统计uv,即独立访客,一个用户一天内访问多次算一次,这个看起来要对用户去重,其实只要按照WordCount的思路,最后输...

2018-07-06 16:45:20 3084 1

原创 通过offsets.retention.minutes设置kafka offset的过期时间

转载请务必注明原创地址为:https://dongkelun.com/2018/06/21/modifyKafkaOffsetTime/ 前言 本文记录博主如何设置kafka的offset过期时间并测试其效果 1、offsets.retention.minutes 通过修改offset...

2018-07-06 16:43:58 4076 0

原创 Spark Streamming+Kafka提交offset实现有且仅有一次

转载请务必注明原创地址为:https://dongkelun.com/2018/06/20/sparkStreamingOffsetOnlyOnce/ 前言 本文讲Spark Streamming使用Direct方式读取Kafka,并在输出(存储)操作之后提交offset到Kafka里实现程序...

2018-07-06 16:41:05 4004 0

原创 spark-submit提交Spark Streamming+Kafka程序

转载请务必注明原创地址为:https://dongkelun.com/2018/06/19/sparkSubmitKafka/ 前言 Spark Streaming本身是没有Kafka相关的jar包和API的,如果想利用Spark Streaming获取Kafka里的数据,需要自己将依赖添加S...

2018-06-28 17:09:31 1523 0

原创 SparkStreaming+Kafka 实现基于缓存的实时wordcount程序

转载请务必注明原创地址为:https://dongkelun.com/2018/06/14/updateStateBykeyWordCount/ 前言 本文利用SparkStreaming和Kafka实现基于缓存的实时wordcount程序,什么意思呢,因为一般的SparkStreaming的...

2018-06-25 09:44:58 963 0

原创 Spark架构原理

转载请务必注明原创地址为:https://dongkelun.com/2018/06/09/sparkArchitecturePrinciples/ 前言 本文总结了Spark架构原理,其中主要包括五个组件:Driver、Master、Worker、Executor和Task,简要概括了每个组...

2018-06-22 09:56:58 245 0

提示
确定要删除当前文章?
取消 删除