自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 资源 (1)
  • 收藏
  • 关注

原创 利用ogg实现oracle到kafka的增量数据实时同步

ogg即Oracle GoldenGate是Oracle的同步工具,本文讲如何配置ogg以实现Oracle数据库增量数据实时同步到kafka中,其中同步消息格式为json。下面是我的源端和目标端的一些配置信息:可在这里或旧版本查询下载注意:源端和目标端的文件不一样,目标端需要下载Oracle GoldenGate for Big Data,......

2018-05-25 09:50:49 55578 40

原创 Kafka安装启动入门教程

转载请务必注明原创地址为:https://dongkelun.com/2018/05/21/kafkaConf/前言本文讲如何安装启动kafka,并进行测试,其中zookeepr是kafka自带的,本文基本按照官网文档进行安装启动的,并提出可能会出现的问题。官方文档:http://kafka.apache.org/quickstart 本文虚拟机系统:centos7,不过其他版本的Lin......

2018-05-22 23:39:00 16433

原创 hive查询报错:java.io.IOException:org.apache.parquet.io.ParquetDecodingException

这个异常是用spark sql将oracle(不知道mysql中有没有该问题,大家可以自己测试一下)中表数据查询出来然后写入hive表中,之后在hive命令行执行查询语句时产生的,下面先具体看一下如何产生这个异常的。...

2018-05-21 00:46:37 10398 1

原创 spark ML之特征处理(1)

前言最近在学习总结机器学习常用算法,在看spark机器学习决策树的官方示例时,发现用到了几个特征处理的类,之前没学习过,所以查了一下,感觉spark在特征处理方面的类还是挺多的,所以准备总结记录一下相关的用法,首先总结一下决策树中用到的几种。1、VectorIndexer根据源码注释,VectorIndexer是用于在“向量”的数据集中索引分类特征列的类(Class for ind...

2018-05-18 16:29:06 1844

原创 Spark Streaming连接Kafka入门教程

转载请务必注明原创地址为:https://dongkelun.com/2018/05/17/sparkKafka/前言首先要安装好kafka,这里不做kafka安装的介绍,本文是Spark Streaming入门教程,只是简单的介绍如何利用spark 连接kafka,并消费数据,由于博主也是才学,所以其中代码以实现为主,可能并不是最好的实现方式。1、对应依赖根据kafka版本选...

2018-05-18 16:19:19 5253 1

原创 旧版spark(1.6版本) 将rdd动态转为dataframe

转载请务必注明原创地址为:http://dongkelun.com/2018/05/11/rdd2df/前言旧版本spark不能直接读取csv转为df,没有spark.read.option(“header”, “true”).csv这么简单的方法直接将第一行作为df的列名,只能现将数据读取为rdd,然后通过map和todf方法转为df,如果csv的列数很多的话用如Array((1,2.....

2018-05-14 08:14:34 2356 4

原创 spark ML算法之线性回归使用

本文是讲如何使用spark ml进行线性回归,不涉及线性回归的原理。

2018-05-09 20:51:17 4504 5

原创 spark 统计每天新增用户数

转载请务必注明原创地址为:http://dongkelun.com/2018/04/11/sparkNewUV/前言本文源自一位群友的一道美团面试题,解题思路(基于倒排索引)和代码都是这位大佬(相对于尚处于小白阶段的我)写的,我只是在基于倒排索引的基础上帮忙想出了最后一步思路,感觉这个解题思路不错,值得记录一下。1、原始数据2017-01-01 a2017-01-01 ...

2018-05-09 17:23:54 5609

原创 spark-submit报错:Exception in thread “main“ java.sql.SQLException:No suitable driver

最近写了一个用spark连接oracle,然后将mysql所有的表保存到hive中的程序,在本地eclipse里运行没有问题,想在集群上跑一下,看看在集群上性能如何,但是用spark-submit 提交程序时抛出一个异常Exception in thread “main” java.sql.SQLException: No suitable driver,一开始以为spark-submit提交时找不到oracle 驱动jar,折腾了半天才发现是代码问题。...

2018-05-09 17:20:12 8572

原创 spark 将DataFrame所有的列类型改为double

由于spark机器学习要求输入的DataFrame类型为数值类型,所以如果原始数据读进来的列为string类型,需要一一转化,而如果列很多的情况下一个转化很麻烦,所以能不能一个循环或者一个函数去解决呢。2、循环转变然后就想能不能用这个方法循环把每一列转成double,但没想到怎么实现,可以用withColumn循环实现。3、通过:...

2018-05-09 17:18:14 24947 3

原创 spark on yarn 配置及异常解决

转载请务必注明原创地址为:http://dongkelun.com/2018/04/16/sparkOnYarnConf/前言YARN 是在Hadoop 2.0 中引入的集群管理器,它可以让多种数据处理框架运行在一个共享的资源池上,并且通常安装在与Hadoop 文件系统(简称HDFS)相同的物理节点上。在这样配置的YARN 集群上运行Spark 是很有意义的,它可以让Spark 在存储数据...

2018-05-09 17:12:28 1494

原创 spark连接hive(spark-shell和eclipse两种方式)

转载请务必注明原创地址为:http://dongkelun.com/2018/03/25/sparkHive/1、在服务器(虚拟机)spark-shell连接hive1.1 将hive-site.xml拷贝到spark/conf里cp /opt/apache-hive-2.3.2-bin/conf/hive-site.xml /opt/spark-2.2.1-bin-hadoo...............

2018-05-09 09:14:40 16004

原创 Spark Sql 连接mysql

转载请务必注明原创地址为:http://dongkelun.com/2018/03/21/sparkMysql/1、基本概念和用法(摘自spark官方文档中文版)Spark SQL 还有一个能够使用 JDBC 从其他数据库读取数据的数据源。当使用 JDBC 访问其它数据库时,应该首选 JdbcRDD。这是因为结果是以数据框(DataFrame)返回的,且这样 Spark SQL操作轻松或便......

2018-05-09 00:28:27 16654 4

原创 scala 两个map合并,key相同时value相加

转载请务必注明原创地址为:http://dongkelun.com/2018/04/01/scalaMapAdd/1、先看一下map自带的合并操作的效果val map1 = Map("key1" -> 1, "key2" -> 3, "key3" ->

2018-05-08 21:20:58 16923 1

转载 scala 下划线使用指南

原文地址:https://my.oschina.net/joymufeng/blog/863823   作者:joymufeng 下划线这个符号几乎贯穿了任何一本Scala编程书籍,并且在不同的场景下具有不同的含义,绕晕了不少初学者。正因如此,下划线这个特殊符号无形中增加Scala的入门难度。本文希望帮助初学者踏平这个小山坡。1、用于替换Java的等价语法由于大部分的Java关键...

2018-05-08 21:19:14 1552

原创 spark基本概念(便于自己随时查阅--摘自Spark快速大数据分析)

转载请务必注明原创地址为:http://dongkelun.com/2018/01/23/sparkBasicConcept/1、 RDD  在Spark 中,我们通过对分布式数据集的操作来表达我们的计算意图,这些计算会自动地在集群上并行进行。这样的数据集被称为弹性分布式数据集(resilient distributed dataset),简称RDD。RDD 是Spark 对分布式数据和计...

2018-05-08 21:17:38 356

原创 centos7 安装oracle11

转载请务必注明原创地址为:http://dongkelun.com/2018/05/05/oracleConf/前言由于需要学习配置oracle goldengate(ogg),奈何没有oracle环境,所以想自己装一个oracle,搜了一下相关文档,跟着安装了一下,发现oracle安装比mysql安装麻烦多了,而且出现了很多博客上没有提到的错误,所以特此记录一下~1、下载下载...

2018-05-08 21:14:10 3067 1

原创 Redis Cluster 安装配置

转载请务必注明原创地址为:http://dongkelun.com/2018/01/09/redisClusterDeployment/服务器CentOS Centos 服务器初始环境配置最好先配置好,服务器时间最好配置为一致 我用的是6个服务器,一个服务器一个端口,便于配置文件的修改首先下载redis3 到本地(需要3以后的版本,我下载的最新的版本:3.0.4)wge...

2018-05-08 21:11:51 782

原创 network is unreachable centos无法连接外网(或unknown host baidu.com)

转载请务必注明原创地址为:http://dongkelun.com/2018/01/17/networkIsUnreachable/前言在虚拟机上新装的系统设置固定ip、重启系统之后,可能ping不通外网,出现如标题所示错误。1、执行以下命令即可(临时添加网关)sudo route add default gw 192.168.44.22、永久性修改网关...

2018-05-08 14:02:12 1104

原创 vmware centos7 设置固定ip

转载请务必注明原创地址为:http://dongkelun.com/2018/01/16/vmwareSetFixIP/1、首先设置虚拟机网络连接为NAT模式 2、修改配置文件,设置固定IP2.1、执行一下命令cd /etc/sysconfig/network-scriptsvim ifcfg-eno167777362.2、修改后结果如下HWAD...

2018-05-08 13:47:34 831

原创 centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署

转载请务必注明原创地址为:http://dongkelun.com/2018/04/25/ambariConf/前言本文是讲如何在centos7(64位) 安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装,需要先将集群服务停掉,然后将不需要的环境变量注释掉即可,如果不注释掉,后面虽然可以安装成功,但是在启动某些服务的时候可能会有异常,比如最后提到的hive启动异常...

2018-05-08 09:23:16 6018 1

原创 spark on yarn 配置及异常解决

转载请务必注明原创地址为:http://dongkelun.com/2018/04/16/sparkOnYarnConf/前言YARN 是在Hadoop 2.0 中引入的集群管理器,它可以让多种数据处理框架运行在一个共享的资源池上,并且通常安装在与Hadoop 文件系统(简称HDFS)相同的物理节点上。在这样配置的YARN 集群上运行Spark 是很有意义的,它可以让Spark 在存储数据...

2018-05-08 09:19:36 1104 1

原创 centos7 hadoop 集群安装配置

转载请务必注明原创地址为:http://dongkelun.com/2018/04/05/hadoopClusterConf/前言:本文安装配置的hadoop为分布式的集群,单机配置见:centos7 hadoop 单机模式安装配置 我用的三个centos7, 先将常用环境配置好(CentOS 初始环境配置),设置的ip分别为:192.168.44.138、192.168.44.139,...

2018-05-08 09:02:48 3229

原创 centos7 hive 单机模式安装配置

转载请务必注明原创地址为:http://dongkelun.com/2018/03/24/hiveConf/前言:由于只是在自己的虚拟机上进行学习,所以对hive只是进行最简单的配置,其他复杂的配置文件没有配置。1、前提1.1 安装配置jdk1.81.2 安装hadoop2.xhadoop单机模式安装见:centos7 hadoop 单机模式安装配置1....

2018-05-07 22:34:20 4798 3

原创 centos7 hadoop 单机模式安装配置

转载请务必注明原创地址为:http://dongkelun.com/2018/03/23/hadoopConf/前言由于现在要用spark,而学习spark会和hdfs和hive打交道,之前在公司服务器配的分布式集群,离开公司之后,自己就不能用了,后来用ambari搭的三台虚拟机的集群太卡了,所以就上网查了一下hadoop+hive的单机部署,以便自己能进行简单的学习,这里记录一下,本来想......

2018-05-07 22:31:48 13595 7

原创 CentOS 初始环境配置

转载请务必注明原创地址为:http://dongkelun.com/2018/04/05/centosInitialConf/前言这个是在大三实习的时候记录在印象笔记里的,当时学长给我的,现在稍加改动一下,记录在这里。 若刚装完系统ping不通外网,如baidu.com,请参考:http://dongkelun.com/2018/01/17/networkIsUnreachable/...

2018-05-07 22:27:57 639

原创 linux ssh 免密登录

转载请务必注明原创地址为:http://dongkelun.com/2018/04/05/sshConf/ 以下用三台centos为例,ip分别为192.168.44.138、192.168.44.139、192.168.44.140,分别对应别名master、slave1、slave21、首先在每个机器上执行ssh-keygen -t rsa一直按回车默认就好 2...

2018-05-07 22:24:27 372

原创 win10 spark+scala+eclipse+sbt 安装配置

转载请务必注明原创地址为:http://dongkelun.com/2018/03/15/winSparkConf/1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装spark2.1 下载下载地址:http://spark.apache.org/downloads.html,我下载的是 spark-2.2.1-bin-hadoop2.7.tgz2...

2018-05-07 12:37:24 2155

flink.tar.gz

flink

2024-07-20

hudi-spark3.2-bundle-2.12-0.13.0.jar hudi sql 保存 extraMetadata

hudi-spark3.2-bundle-2.12-0.13.0.jar hudi sql 保存 extraMetadata

2024-06-13

QQ截图工具独立版-不需要安装QQ

不安装QQ、不登录QQ即可使用QQ截图工具 使用方法:1、下载文件之后先解压; 2、运行Init.bat 3、桌面会有一个图标,双击运行可以启动QQ截图; 4、在右下角拖盘有可以设置的地方

2024-02-18

flink-sql-connector-hbase-2.2-1.15.4.jar

flink 读写 hbase 添加参数 hbase.conf.dir,支持参数自定义hbase-site.xml

2023-12-08

Spark SQL增量查询Hudi表-Spark3.1.2-jar包

通过修改源码,支持set方式增量查询Hudi包

2022-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除