大数据
文章平均质量分 74
大数据
董可伦
博主曾获2014年全国数学建模竞赛国家一等奖;有八年大数据经验,大数据领域专家、CSDN博客专家。Apache Hudi Active Contributor,喜欢开源,擅长并乐于分享Flink、Hudi、Spark等大数据领域的技术
展开
-
Hive 表添加列(新增字段)
记录总结一下 Hive 表如何添加新的字段以及遇到的问题。最初是因为要验证 Hudi Schema Evolution 中的增加字段问题more对于某些文件类型,如ORC不存在该问题,而对于 Parquet、Text ,只有在已有分区下插入数据是,新增字段查询才为 NULL, 新增的分区正常。原创 2024-04-23 07:00:00 · 2801 阅读 · 0 评论 -
Hudi Java Client总结|读取Hive写Hudi代码示例
Hudi除了支持Spark、Fink写Hudi外,还支持Java客户端。本文总结Hudi Java Client如何使用,主要为代码示例,可以实现读取Hive表写Hudi表。当然也支持读取其他数据源,比如mysql,实现读取mysql的历史数据和增量数据写Hudi。原创 2022-10-27 16:43:54 · 4780 阅读 · 87 评论 -
利用Submarin集成Spark-Ranger
我的原创地址:https://dongkelun.com/2021/12/02/submarinSparkRanger/前言本文总结如果利用Submarin集成Spark-Ranger,通过ranger控制spark sql的权限前提已经安装了Spark、Hive、kerberos、Ranger,并且Hive已经集成了Ranger,本文环境基于Ambarisubmarine-spark-security 插件打包官网文档https://submarine.apache.org/docs/user原创 2022-05-03 14:38:25 · 1217 阅读 · 10 评论 -
Spark 3.0.1 Structured Streaming 提交程序异常解决
我的原创地址:https://dongkelun.com/2020/10/09/spark3StreamingException/前言先说解决办法,提交时除了添加spark-sql-kafka和kafka-clients jar包外,还要添加spark-token-provider-kafka和commons-pool jar包,具体为spark-token-provider-kafka-0-10_2.12-3.0.1.jar和commons-pool2-2.6.2.jar注意:Spark 3 版本原创 2021-07-10 16:36:29 · 1222 阅读 · 1 评论 -
Java API 连接 Hbase示例
我的原创地址:https://dongkelun.com/2020/08/19/javaHbase/前言记录一下Java API 连接 Hbase的代码,并记录遇到的异常及解决办法代码首先pom.xml里添加hbase-client依赖:<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <原创 2021-07-10 11:52:07 · 702 阅读 · 0 评论 -
centos7 hbase1.4.13+hadoop2.7.1+单机环境搭建
我的原创地址:https://dongkelun.com/2020/08/14/hbaseConf/前言因后续要学习研究hbase,那就先从搭建hbase开始吧。先搭建一个单机版的,方便自己学习使用。安装配置hadoop参考我的另一篇文章:centos7 hadoop 单机模式安装配置注:这里的JDK为1.8,版本支持如图下载hbase下载地址:http://mirror.bit.edu.cn/apache/hbase/ 我下载的是hbase-1.4.13-bin.tar.gz (原创 2021-06-21 19:40:27 · 615 阅读 · 0 评论 -
sbt 支持打包Java程序
我的原创地址:https://dongkelun.com/2019/11/19/sbtSupportJava/前言最开始用sbt+scala,后来有了scala和Java混合使用的需求,之前在sbt项目下写Java程序,用idea和eclipse运行没问题,但是打包报错,所以一直认为sbt不支持Java,于是就有了IDEA 新建Maven项目同时支持Java和Scala两种语言,但是有的旧项目也需要结合java,所以就再次尝试,结果发现sbt还真的支持打包Java,这里记录一下配置其实就是加一个配置原创 2021-02-26 15:25:42 · 365 阅读 · 0 评论 -
Centos7 ELKB 7.2.0版本单机部署
前言本人新手,本文记录简单的ELKB单机部署,ELKB分别指elasticsearch、logstash、kibana、filebeat,用的当前官网最新版本7.2.0,日志用的Nginx产生的日志。Nginx可以参考我这篇:Nginx 安装配置,我本次用的Nginx和这篇文章是一样的,包括前端。环境:Centos7 先将常用环境配置好(CentOS 初始环境配置),jdk版本为1.8...原创 2020-01-08 20:16:49 · 1156 阅读 · 1 评论 -
Spark读取CSV异常 java.lang.ArrayIndexOutOfBoundsException:62
前言记录一个异常场景Spark读取CSV文件,文件里的某些内容编码格式有问题或者有特殊字符一种情况是 62,我碰到的这种,另一种是63,查资料查的java.lang.ArrayIndexOutOfBoundsException:62java.lang.ArrayIndexOutOfBoundsException:63解决方法情况1:将GBK编码的文件转文UTF-8(我碰见的...原创 2019-11-19 19:01:25 · 2071 阅读 · 0 评论 -
Hive分桶表学习总结
前言学习总结一下Hive的分桶表。分桶规则:对分桶字段值进行哈希,哈希值除以桶的个数求余,余数决定了该条记录在哪个桶中,也就是余数相同的在一个桶中。优点:1、提高join查询效率 2、提高抽样效率1、建表通过 clustered by(字段名) into bucket_num buckets 分桶,意思是根据字段名分成bucket_num个桶create table test_...原创 2018-12-12 09:24:18 · 1813 阅读 · 1 评论 -
打印(获取)HDFS路径下所有的文件名(包括子目录下的)
我的原创地址:https://dongkelun.com/2018/11/20/getAllHDFSFileNames/前言自己有个需求,如题,需要获取HDFS路径下所有的文件名,然后根据文件名用Spark进行后续操作。想了一下用Spark好像不太容易获取到,还要递归的去获取子目录下的文件名,于是查了一下,最后用Hadoop的API搞定,这里记录下,方便以后会用到。1、数据测试路径:/tm......原创 2018-11-21 00:16:52 · 17514 阅读 · 0 评论 -
Spark UDF使用详解及代码示例
本文介绍如何在Spark Sql和DataFrame中使用UDF,如何利用UDF给一个表或者一个DataFrame根据需求添加几列,并给出了旧版(Spark1.x)和新版(Spark2.x)完整的代码示例。下面以Spark2.x为例给出代码,关于Spark1.x创建DataFrame可在最后的完整代码里查看。2、Spark Sql用法...原创 2018-08-03 09:17:53 · 32444 阅读 · 14 评论 -
通过数据库客户端界面工具DBeaver连接Hive
本文讲解如何通过数据库客户端界面工具DBeaver连接hive,并解决驱动下载不下来的问题。为什么使用客户端界面工具而不用命令行使用hive其实在网上搜一下,连接hive的工具还有很多,使用DBeaver的原因是因为我之前连接关系型数据库使用的就是DBeaver,正好DBeaver支持连接hive,且个人认为DBeaver确实挺好用的,支持各...原创 2018-08-03 09:16:25 · 27167 阅读 · 3 评论 -
HDFS DataNode启动异常:/opt/jdk1.8.0_151/bin/java:权限不够
我的原创地址:https://dongkelun.com/2018/07/10/HadoopException/前言这个异常是在在ambari里启动DataNode产生的,其实这个问题很久就发现了,只是没时间去处理,所以之前把发生问题的slave1节点给移除了,现在有时间处理,就又把slave1加上了,所以就有了ambari 异常总结及解决办法里面的问题,这个java权限不够的问题,在添加...原创 2018-08-03 09:15:09 · 4625 阅读 · 1 评论 -
ambari 异常总结及解决办法
本文总结在使用ambari时产生的异常,以及如何解决的。如果发生了异常,在界面上不能直观的看出异常的原因,那么我一般通过查看日志的方法解决。通过下面的命令查看若该日志文件没有异常信息,可在其他日志文件里查找。...原创 2018-08-03 09:13:39 · 10710 阅读 · 1 评论 -
centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署
转载请务必注明原创地址为:http://dongkelun.com/2018/04/25/ambariConf/前言本文是讲如何在centos7(64位) 安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装,需要先将集群服务停掉,然后将不需要的环境变量注释掉即可,如果不注释掉,后面虽然可以安装成功,但是在启动某些服务的时候可能会有异常,比如最后提到的hive启动异常...原创 2018-05-08 09:23:16 · 6018 阅读 · 1 评论 -
Spark Sql 连接mysql
转载请务必注明原创地址为:http://dongkelun.com/2018/03/21/sparkMysql/1、基本概念和用法(摘自spark官方文档中文版)Spark SQL 还有一个能够使用 JDBC 从其他数据库读取数据的数据源。当使用 JDBC 访问其它数据库时,应该首选 JdbcRDD。这是因为结果是以数据框(DataFrame)返回的,且这样 Spark SQL操作轻松或便......原创 2018-05-09 00:28:27 · 16659 阅读 · 4 评论 -
spark连接hive(spark-shell和eclipse两种方式)
转载请务必注明原创地址为:http://dongkelun.com/2018/03/25/sparkHive/1、在服务器(虚拟机)spark-shell连接hive1.1 将hive-site.xml拷贝到spark/conf里cp /opt/apache-hive-2.3.2-bin/conf/hive-site.xml /opt/spark-2.2.1-bin-hadoo...............原创 2018-05-09 09:14:40 · 16004 阅读 · 0 评论 -
spark on yarn 配置及异常解决
转载请务必注明原创地址为:http://dongkelun.com/2018/04/16/sparkOnYarnConf/前言YARN 是在Hadoop 2.0 中引入的集群管理器,它可以让多种数据处理框架运行在一个共享的资源池上,并且通常安装在与Hadoop 文件系统(简称HDFS)相同的物理节点上。在这样配置的YARN 集群上运行Spark 是很有意义的,它可以让Spark 在存储数据...原创 2018-05-09 17:12:28 · 1494 阅读 · 0 评论 -
spark 将DataFrame所有的列类型改为double
由于spark机器学习要求输入的DataFrame类型为数值类型,所以如果原始数据读进来的列为string类型,需要一一转化,而如果列很多的情况下一个转化很麻烦,所以能不能一个循环或者一个函数去解决呢。2、循环转变然后就想能不能用这个方法循环把每一列转成double,但没想到怎么实现,可以用withColumn循环实现。3、通过:...原创 2018-05-09 17:18:14 · 24948 阅读 · 3 评论 -
spark-submit报错:Exception in thread “main“ java.sql.SQLException:No suitable driver
最近写了一个用spark连接oracle,然后将mysql所有的表保存到hive中的程序,在本地eclipse里运行没有问题,想在集群上跑一下,看看在集群上性能如何,但是用spark-submit 提交程序时抛出一个异常Exception in thread “main” java.sql.SQLException: No suitable driver,一开始以为spark-submit提交时找不到oracle 驱动jar,折腾了半天才发现是代码问题。...原创 2018-05-09 17:20:12 · 8573 阅读 · 0 评论 -
spark 统计每天新增用户数
转载请务必注明原创地址为:http://dongkelun.com/2018/04/11/sparkNewUV/前言本文源自一位群友的一道美团面试题,解题思路(基于倒排索引)和代码都是这位大佬(相对于尚处于小白阶段的我)写的,我只是在基于倒排索引的基础上帮忙想出了最后一步思路,感觉这个解题思路不错,值得记录一下。1、原始数据2017-01-01 a2017-01-01 ...原创 2018-05-09 17:23:54 · 5609 阅读 · 0 评论 -
spark ML算法之线性回归使用
本文是讲如何使用spark ml进行线性回归,不涉及线性回归的原理。原创 2018-05-09 20:51:17 · 4504 阅读 · 5 评论 -
Spark Streaming连接Kafka入门教程
转载请务必注明原创地址为:https://dongkelun.com/2018/05/17/sparkKafka/前言首先要安装好kafka,这里不做kafka安装的介绍,本文是Spark Streaming入门教程,只是简单的介绍如何利用spark 连接kafka,并消费数据,由于博主也是才学,所以其中代码以实现为主,可能并不是最好的实现方式。1、对应依赖根据kafka版本选...原创 2018-05-18 16:19:19 · 5255 阅读 · 1 评论 -
spark ML之特征处理(1)
前言最近在学习总结机器学习常用算法,在看spark机器学习决策树的官方示例时,发现用到了几个特征处理的类,之前没学习过,所以查了一下,感觉spark在特征处理方面的类还是挺多的,所以准备总结记录一下相关的用法,首先总结一下决策树中用到的几种。1、VectorIndexer根据源码注释,VectorIndexer是用于在“向量”的数据集中索引分类特征列的类(Class for ind...原创 2018-05-18 16:29:06 · 1845 阅读 · 0 评论 -
旧版spark(1.6版本) 将rdd动态转为dataframe
转载请务必注明原创地址为:http://dongkelun.com/2018/05/11/rdd2df/前言旧版本spark不能直接读取csv转为df,没有spark.read.option(“header”, “true”).csv这么简单的方法直接将第一行作为df的列名,只能现将数据读取为rdd,然后通过map和todf方法转为df,如果csv的列数很多的话用如Array((1,2.....原创 2018-05-14 08:14:34 · 2356 阅读 · 4 评论 -
centos7 hive 单机模式安装配置
转载请务必注明原创地址为:http://dongkelun.com/2018/03/24/hiveConf/前言:由于只是在自己的虚拟机上进行学习,所以对hive只是进行最简单的配置,其他复杂的配置文件没有配置。1、前提1.1 安装配置jdk1.81.2 安装hadoop2.xhadoop单机模式安装见:centos7 hadoop 单机模式安装配置1....原创 2018-05-07 22:34:20 · 4798 阅读 · 3 评论 -
spark on yarn 配置及异常解决
转载请务必注明原创地址为:http://dongkelun.com/2018/04/16/sparkOnYarnConf/前言YARN 是在Hadoop 2.0 中引入的集群管理器,它可以让多种数据处理框架运行在一个共享的资源池上,并且通常安装在与Hadoop 文件系统(简称HDFS)相同的物理节点上。在这样配置的YARN 集群上运行Spark 是很有意义的,它可以让Spark 在存储数据...原创 2018-05-08 09:19:36 · 1104 阅读 · 1 评论 -
spark基本概念(便于自己随时查阅--摘自Spark快速大数据分析)
转载请务必注明原创地址为:http://dongkelun.com/2018/01/23/sparkBasicConcept/1、 RDD 在Spark 中,我们通过对分布式数据集的操作来表达我们的计算意图,这些计算会自动地在集群上并行进行。这样的数据集被称为弹性分布式数据集(resilient distributed dataset),简称RDD。RDD 是Spark 对分布式数据和计...原创 2018-05-08 21:17:38 · 356 阅读 · 0 评论