2018年05月_董可伦

原创利用ogg实现oracle到kafka的增量数据实时同步

ogg即Oracle GoldenGate是Oracle的同步工具，本文讲如何配置ogg以实现Oracle数据库增量数据实时同步到kafka中，其中同步消息格式为json。下面是我的源端和目标端的一些配置信息：可在这里或旧版本查询下载注意：源端和目标端的文件不一样，目标端需要下载Oracle GoldenGate for Big Data,......

2018-05-25 09:50:49 55578 40

原创 Kafka安装启动入门教程

转载请务必注明原创地址为：https://dongkelun.com/2018/05/21/kafkaConf/前言本文讲如何安装启动kafka,并进行测试，其中zookeepr是kafka自带的，本文基本按照官网文档进行安装启动的，并提出可能会出现的问题。官方文档：http://kafka.apache.org/quickstart 本文虚拟机系统：centos7，不过其他版本的Lin......

2018-05-22 23:39:00 16433

原创 hive查询报错:java.io.IOException:org.apache.parquet.io.ParquetDecodingException

这个异常是用spark sql将oracle（不知道mysql中有没有该问题，大家可以自己测试一下）中表数据查询出来然后写入hive表中，之后在hive命令行执行查询语句时产生的，下面先具体看一下如何产生这个异常的。...

2018-05-21 00:46:37 10398 1

原创 spark ML之特征处理（1）

前言最近在学习总结机器学习常用算法，在看spark机器学习决策树的官方示例时，发现用到了几个特征处理的类，之前没学习过，所以查了一下，感觉spark在特征处理方面的类还是挺多的，所以准备总结记录一下相关的用法，首先总结一下决策树中用到的几种。1、VectorIndexer根据源码注释，VectorIndexer是用于在“向量”的数据集中索引分类特征列的类（Class for ind...

2018-05-18 16:29:06 1844

原创 Spark Streaming连接Kafka入门教程

转载请务必注明原创地址为：https://dongkelun.com/2018/05/17/sparkKafka/前言首先要安装好kafka,这里不做kafka安装的介绍,本文是Spark Streaming入门教程，只是简单的介绍如何利用spark 连接kafka，并消费数据，由于博主也是才学，所以其中代码以实现为主，可能并不是最好的实现方式。1、对应依赖根据kafka版本选...

2018-05-18 16:19:19 5253 1

原创旧版spark（1.6版本）将rdd动态转为dataframe

转载请务必注明原创地址为：http://dongkelun.com/2018/05/11/rdd2df/前言旧版本spark不能直接读取csv转为df,没有spark.read.option(“header”, “true”).csv这么简单的方法直接将第一行作为df的列名，只能现将数据读取为rdd,然后通过map和todf方法转为df,如果csv的列数很多的话用如Array((1,2.....

2018-05-14 08:14:34 2356 4

原创 spark ML算法之线性回归使用

本文是讲如何使用spark ml进行线性回归，不涉及线性回归的原理。

2018-05-09 20:51:17 4504 5

原创 spark 统计每天新增用户数

转载请务必注明原创地址为：http://dongkelun.com/2018/04/11/sparkNewUV/前言本文源自一位群友的一道美团面试题，解题思路（基于倒排索引）和代码都是这位大佬（相对于尚处于小白阶段的我）写的，我只是在基于倒排索引的基础上帮忙想出了最后一步思路，感觉这个解题思路不错，值得记录一下。1、原始数据2017-01-01 a2017-01-01 ...

2018-05-09 17:23:54 5609

原创 spark-submit报错:Exception in thread “main“ java.sql.SQLException:No suitable driver

最近写了一个用spark连接oracle,然后将mysql所有的表保存到hive中的程序，在本地eclipse里运行没有问题，想在集群上跑一下，看看在集群上性能如何，但是用spark-submit 提交程序时抛出一个异常Exception in thread “main” java.sql.SQLException: No suitable driver，一开始以为spark-submit提交时找不到oracle 驱动jar,折腾了半天才发现是代码问题。...

2018-05-09 17:20:12 8572

原创 spark 将DataFrame所有的列类型改为double

由于spark机器学习要求输入的DataFrame类型为数值类型，所以如果原始数据读进来的列为string类型，需要一一转化，而如果列很多的情况下一个转化很麻烦，所以能不能一个循环或者一个函数去解决呢。2、循环转变然后就想能不能用这个方法循环把每一列转成double，但没想到怎么实现，可以用withColumn循环实现。3、通过:...

2018-05-09 17:18:14 24947 3

原创 spark on yarn 配置及异常解决

转载请务必注明原创地址为：http://dongkelun.com/2018/04/16/sparkOnYarnConf/前言YARN 是在Hadoop 2.0 中引入的集群管理器，它可以让多种数据处理框架运行在一个共享的资源池上，并且通常安装在与Hadoop 文件系统（简称HDFS）相同的物理节点上。在这样配置的YARN 集群上运行Spark 是很有意义的，它可以让Spark 在存储数据...

2018-05-09 17:12:28 1494

原创 spark连接hive（spark-shell和eclipse两种方式）

转载请务必注明原创地址为：http://dongkelun.com/2018/03/25/sparkHive/1、在服务器（虚拟机）spark-shell连接hive1.1 将hive-site.xml拷贝到spark/conf里cp /opt/apache-hive-2.3.2-bin/conf/hive-site.xml /opt/spark-2.2.1-bin-hadoo...............

2018-05-09 09:14:40 16004

原创 Spark Sql 连接mysql

转载请务必注明原创地址为：http://dongkelun.com/2018/03/21/sparkMysql/1、基本概念和用法（摘自spark官方文档中文版）Spark SQL 还有一个能够使用 JDBC 从其他数据库读取数据的数据源。当使用 JDBC 访问其它数据库时，应该首选 JdbcRDD。这是因为结果是以数据框（DataFrame）返回的，且这样 Spark SQL操作轻松或便......

2018-05-09 00:28:27 16654 4

原创 scala 两个map合并，key相同时value相加

转载请务必注明原创地址为：http://dongkelun.com/2018/04/01/scalaMapAdd/1、先看一下map自带的合并操作的效果val map1 = Map(&quot;key1&quot; -&amp;gt; 1, &quot;key2&quot; -&amp;gt; 3, &quot;key3&quot; -&amp;gt;

2018-05-08 21:20:58 16923 1

转载 scala 下划线使用指南

原文地址：https://my.oschina.net/joymufeng/blog/863823 作者：joymufeng 下划线这个符号几乎贯穿了任何一本Scala编程书籍，并且在不同的场景下具有不同的含义，绕晕了不少初学者。正因如此，下划线这个特殊符号无形中增加Scala的入门难度。本文希望帮助初学者踏平这个小山坡。1、用于替换Java的等价语法由于大部分的Java关键...

2018-05-08 21:19:14 1552

原创 spark基本概念（便于自己随时查阅--摘自Spark快速大数据分析）

转载请务必注明原创地址为：http://dongkelun.com/2018/01/23/sparkBasicConcept/1、 RDD 在Spark 中，我们通过对分布式数据集的操作来表达我们的计算意图，这些计算会自动地在集群上并行进行。这样的数据集被称为弹性分布式数据集（resilient distributed dataset），简称RDD。RDD 是Spark 对分布式数据和计...

2018-05-08 21:17:38 356

原创 centos7 安装oracle11

转载请务必注明原创地址为：http://dongkelun.com/2018/05/05/oracleConf/前言由于需要学习配置oracle goldengate(ogg),奈何没有oracle环境，所以想自己装一个oracle，搜了一下相关文档，跟着安装了一下，发现oracle安装比mysql安装麻烦多了，而且出现了很多博客上没有提到的错误，所以特此记录一下~1、下载下载...

2018-05-08 21:14:10 3067 1

原创 Redis Cluster 安装配置

转载请务必注明原创地址为：http://dongkelun.com/2018/01/09/redisClusterDeployment/服务器CentOS Centos 服务器初始环境配置最好先配置好，服务器时间最好配置为一致我用的是6个服务器，一个服务器一个端口，便于配置文件的修改首先下载redis3 到本地(需要3以后的版本，我下载的最新的版本:3.0.4)wge...

2018-05-08 21:11:51 782

原创 network is unreachable centos无法连接外网（或unknown host baidu.com）

转载请务必注明原创地址为：http://dongkelun.com/2018/01/17/networkIsUnreachable/前言在虚拟机上新装的系统设置固定ip、重启系统之后，可能ping不通外网，出现如标题所示错误。1、执行以下命令即可（临时添加网关）sudo route add default gw 192.168.44.22、永久性修改网关...

2018-05-08 14:02:12 1104

原创 vmware centos7 设置固定ip

转载请务必注明原创地址为：http://dongkelun.com/2018/01/16/vmwareSetFixIP/1、首先设置虚拟机网络连接为NAT模式 2、修改配置文件，设置固定IP2.1、执行一下命令cd /etc/sysconfig/network-scriptsvim ifcfg-eno167777362.2、修改后结果如下HWAD...

2018-05-08 13:47:34 831

原创 centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署

转载请务必注明原创地址为：http://dongkelun.com/2018/04/25/ambariConf/前言本文是讲如何在centos7（64位）安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装，需要先将集群服务停掉，然后将不需要的环境变量注释掉即可，如果不注释掉，后面虽然可以安装成功，但是在启动某些服务的时候可能会有异常，比如最后提到的hive启动异常...

2018-05-08 09:23:16 6018 1

原创 spark on yarn 配置及异常解决

转载请务必注明原创地址为：http://dongkelun.com/2018/04/16/sparkOnYarnConf/前言YARN 是在Hadoop 2.0 中引入的集群管理器，它可以让多种数据处理框架运行在一个共享的资源池上，并且通常安装在与Hadoop 文件系统（简称HDFS）相同的物理节点上。在这样配置的YARN 集群上运行Spark 是很有意义的，它可以让Spark 在存储数据...

2018-05-08 09:19:36 1104 1

原创 centos7 hadoop 集群安装配置

转载请务必注明原创地址为：http://dongkelun.com/2018/04/05/hadoopClusterConf/前言：本文安装配置的hadoop为分布式的集群，单机配置见：centos7 hadoop 单机模式安装配置我用的三个centos7, 先将常用环境配置好（CentOS 初始环境配置），设置的ip分别为：192.168.44.138、192.168.44.139，...

2018-05-08 09:02:48 3229

原创 centos7 hive 单机模式安装配置

转载请务必注明原创地址为：http://dongkelun.com/2018/03/24/hiveConf/前言：由于只是在自己的虚拟机上进行学习，所以对hive只是进行最简单的配置，其他复杂的配置文件没有配置。1、前提1.1 安装配置jdk1.81.2 安装hadoop2.xhadoop单机模式安装见：centos7 hadoop 单机模式安装配置1....

2018-05-07 22:34:20 4798 3

原创 centos7 hadoop 单机模式安装配置

转载请务必注明原创地址为：http://dongkelun.com/2018/03/23/hadoopConf/前言由于现在要用spark,而学习spark会和hdfs和hive打交道，之前在公司服务器配的分布式集群，离开公司之后，自己就不能用了，后来用ambari搭的三台虚拟机的集群太卡了，所以就上网查了一下hadoop+hive的单机部署，以便自己能进行简单的学习，这里记录一下，本来想......

2018-05-07 22:31:48 13595 7

原创 CentOS 初始环境配置

转载请务必注明原创地址为：http://dongkelun.com/2018/04/05/centosInitialConf/前言这个是在大三实习的时候记录在印象笔记里的，当时学长给我的，现在稍加改动一下，记录在这里。若刚装完系统ping不通外网，如baidu.com,请参考：http://dongkelun.com/2018/01/17/networkIsUnreachable/...

2018-05-07 22:27:57 639

原创 linux ssh 免密登录

转载请务必注明原创地址为：http://dongkelun.com/2018/04/05/sshConf/ 以下用三台centos为例，ip分别为192.168.44.138、192.168.44.139、192.168.44.140，分别对应别名master、slave1、slave21、首先在每个机器上执行ssh-keygen -t rsa一直按回车默认就好 2...

2018-05-07 22:24:27 372

原创 win10 spark+scala+eclipse+sbt 安装配置

转载请务必注明原创地址为：http://dongkelun.com/2018/03/15/winSparkConf/1、首先安装配置jdk1.8以上,建议全部的安装路径不要有空格2、安装spark2.1 下载下载地址：http://spark.apache.org/downloads.html，我下载的是 spark-2.2.1-bin-hadoop2.7.tgz2...

2018-05-07 12:37:24 2155

主要分享大数据相关的知识，如Spark、Hudi

原创利用ogg实现oracle到kafka的增量数据实时同步

原创 Kafka安装启动入门教程

原创 hive查询报错:java.io.IOException:org.apache.parquet.io.ParquetDecodingException

原创 spark ML之特征处理（1）

原创 Spark Streaming连接Kafka入门教程

原创旧版spark（1.6版本）将rdd动态转为dataframe

原创 spark ML算法之线性回归使用

原创 spark 统计每天新增用户数

原创 spark-submit报错:Exception in thread “main“ java.sql.SQLException:No suitable driver

原创 spark 将DataFrame所有的列类型改为double

原创 spark on yarn 配置及异常解决

原创 spark连接hive（spark-shell和eclipse两种方式）

原创 Spark Sql 连接mysql

原创 scala 两个map合并，key相同时value相加

转载 scala 下划线使用指南

原创 spark基本概念（便于自己随时查阅--摘自Spark快速大数据分析）

原创 centos7 安装oracle11

原创 Redis Cluster 安装配置

原创 network is unreachable centos无法连接外网（或unknown host baidu.com）

原创 vmware centos7 设置固定ip

原创 centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署

原创 spark on yarn 配置及异常解决

原创 centos7 hadoop 集群安装配置

原创 centos7 hive 单机模式安装配置

原创 centos7 hadoop 单机模式安装配置

原创 CentOS 初始环境配置

原创 linux ssh 免密登录

原创 win10 spark+scala+eclipse+sbt 安装配置

flink.tar.gz

hudi-spark3.2-bundle-2.12-0.13.0.jar hudi sql 保存 extraMetadata

QQ截图工具独立版-不需要安装QQ

flink-sql-connector-hbase-2.2-1.15.4.jar

Spark SQL增量查询Hudi表-Spark3.1.2-jar包

空空如也