自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 问答 (1)
  • 收藏
  • 关注

原创 Apache Kylin 5.0在Ubuntu18.04的部署教程

本篇博客,将详细介绍Kylin在Hadoop环境上的部署过程以及碰到的问题。

2024-04-29 13:36:52 367 3

原创 TDengine使用踩坑,TDengine ERROR: invalid data or symbol

TDengine ERROR: invalid data or symbol

2024-03-13 13:05:17 1104

原创 利用Mybatis的TypeHandler实现字段加密

使用Mybatis的TypeHandler实现对实体类字段的加密.

2023-11-23 14:21:21 262

原创 Ubuntu使用tar包安装nginx

简单记录nginx安装过程。

2023-11-22 10:52:55 279

原创 Java常用时间转换函数

记录在日常开发中用到的关于时间转换的函数。

2023-11-13 15:27:23 461

原创 TDengine安装踩坑,报错dnode file:/var/lib/taos//dnode/dnode.json not exist

tdengine安装踩坑

2023-08-31 14:48:08 2949 11

原创 在不联网的服务器上,使用tar包安装mysql和redis

使用tar包安装mysql,redis

2023-08-24 15:10:10 205

原创 java实现统计一段时间内的数据,没有的话默认补零。

统计一段时间内的数据,没有的话默认补零。

2023-08-03 16:27:03 702

原创 Presto-submitter组件

使用scala语言通过rest的形式实现对presto集群进行sql任务提交,返回结果,查询任务状态,kill的功能

2023-05-26 16:30:41 118

原创 Mysql数据全量入湖Delta Lake存储,耗时效果

记录真实业务场景下的数据,同步到数据湖的实验数据。Spark计算集群使用普通电脑搭建。

2023-04-14 16:39:31 164

原创 使用Spark Structured Streaming将Kafka的数据写入到Hudi数据湖中

使用Spark Structured Streaming将Kafka的数据写入到Hudi数据湖中。

2023-03-23 10:30:47 491

原创 使用Spark Structured Streaming将Kafka的数据写入到Iceberg数据湖中

使用Spark Structured Streaming将Kafka的数据写入到Iceberg数据湖中。

2023-03-23 10:08:05 335

原创 Scala语言实现读取,访问Yarn客户端

使用scala语言访问Yarn客户端,加载Yarn客户端需要yarn-site.xml文件。对Yarns上的程序进行操作,需要applicationId,仅封装了几个常用的方法。

2023-03-21 10:53:42 136

原创 将Springboot的MultipartFile文件上传到Hadoop文件系统

将Springboot的MultipartFile文件上次到Hadoop文件系统

2023-01-13 10:56:04 566

原创 通过hadoop配置文件快速构建可reusable的Hadoop fs

通过读取hadoop配置文件core-site.xml,hdfs-site.xml等文件快速构建可reusable的Hadoop fs

2023-01-11 10:44:22 142

原创 获取已经存在的hudi表中的元数据信息

获取hudi表元数据信息

2022-12-29 15:34:56 1029 3

原创 presto集群部署,并读取delta lake数据

记录presto的安装与部署使用presto读取在hdfs上的delta

2022-12-06 17:02:38 723

原创 flink任务提交,查询,停止工具

因项目,需要在spring boot后台项目中集成flink任务提交,查询之类的功能,所有有了这个项目这个项目,可以通过java api的形式,帮助你提交,查询,暂停flink任务,也可以构建和关闭flink yarn session集群。主要通过restful接口和构建jobGraph实现。

2022-11-21 16:40:02 2097

原创 使用flink将kafka数据同步到delta数据湖中

使用flink将kafka数据同步到delta中

2022-11-18 16:08:10 1188

原创 使用flink将mysql数据入湖delta

Delta数据湖原来是强绑定于Spark引擎,而近期社区实现了使用Flink引擎将数据入湖,简单写个demo使用下。

2022-11-17 13:34:33 1099 3

原创 Spark总结

spark知识总结

2022-11-10 16:05:19 299

原创 使用PackagedProgram封装Flink程序,然后构建JobGraph,提交Flink集群

使用PackagedProgram封装Flink程序,构建JobGraph,提交Flink集群

2022-06-09 15:23:12 1337 5

原创 记录Maven插件的使用

Maven插件使用1. 前言记录下自己使用maven插件的经历2. maven-scala-plugin使用该插件将同时存在java和scala代码的项目进行打包<build> <plugins> <plugin> <groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</a

2022-04-26 15:44:27 314

原创 将Kafka中的数据流式写入到数据湖Delta Lake中

Kafka-Delta使用1. 前言Delta Version : 1.0spark : 3.1.2scala : 2.12.10将Kafka的数据流式写入到Delta数据湖中2. kafka原始数据格式名称类型user_idLongstation_timeStringscoreIntlocal_timeString3.1 构建sparkval spark: SparkSession = SparkSession.builder()

2022-04-12 10:36:30 1772 2

原创 Spark-StructuredStreaming对mongo实现自定义流数据源

Spark-StructuredStreaming-Mongo1. 介绍最近,有一个新需求,需要将mongo某个表的增量数据,实时同步到数据湖仓库中,于是自定义了这么一个数据源。mongoDb-stream数据源,通过扩展Spark Structured Streaming的Source和Sink实现对mongoDb数据库的流读和流写功能。使用需要通过option传入mongo-ip,数据库名,集合名。流处理读取还须指定schema,流处理回写入mongo时可以不使用。只支持append增量模式

2021-12-10 13:06:08 2019

原创 Unbuntu 18.04 ElasticSearch集群+Head插件+Kibana安装

Unbuntu 18.04 ElasticSearch集群+Head插件+Kibana安装1. 前言因为部分任务需要使用到Es,所以这次将Es集群搭建在原先已经安装好的大数据集群上,顺便搭建了Head,Kibana等工具。主要记录了配置文件的相关信息和一些重要步骤。2. 集群设计这次选择将Es集群搭建在3台机器上,再另外选择一台机器搭建Head,KIbana等可视化工具。ElasticSearch版本7.8.0Kibana版本7.8.0安装Es需要满足Java1.8以上安装Head,Kiba

2021-11-26 14:42:08 268

原创 Unbutu18.04 搭建hive,使用mysql作为元数据仓库

Unbutu18.04 搭建hive,使用mysql作为元数据仓库1. 前言在已经搭建的Hadoop Ha集群上搭建hive主要记录了配置文件信息hive版本 3.1.2mysql版本 5.7.362. mysql安装安装sudo apt install mysql-server使用debian-sys-maint账号登录mysql -udebian-sys-maint -p# 密码在etc/mysql/debian.cnf修改root密码use mysql;up

2021-11-19 15:23:07 1986

原创 zookeeper + kafka + kafka-eagle集群搭建

zookeeper + kafka + kafka-eagle集群搭建1. 前言记录zookeeper集群和kafka集群的搭建步骤,并配置可视化工具kafka-eagle。主要记录配置文件相关信息在ubuntu18.04环境下,可以正常使用,运行。注:kafka集群的使用,需要zookeeper集群2. 节点架构信息节点Zookafkakafka-Eaglenode3√√√node4√√node5√√集群版本号端口

2021-11-15 14:00:55 2329

原创 mongodb Ubuntu18.4安装手册

1. 前言ubuntu18.04 安装mongodb,通过配置文件启动mongodb版本 4.2.172. mongodb安装安装curllib4 sudo apt install curl创建配置文件 mongodb.confsystemLog: #MongoDB发送所有日志输出的目标指定为文件 destination: file path: "/usr/local/mongo/log/mongodb.log" logAppend: truestorage:

2021-11-12 14:24:35 579

原创 Hadoop Ha + Hbase + Spark高可用集群搭建手册

Hadoop Ha + Hbase + Spark高可用集群搭建1.前言记录Hadoop Ha + Hbase+ Spark高可用集群的搭建,主要包括每个组件的配置信息,以及启动步骤。在ubuntu18.04环境下,集群可以正常使用,运行。2.Ling-Ha集群架构信息节点NnRmDFSZKDnNmJnZoosparkHmHrnode1√√√√√node2√√√√node3√√√√√√

2021-11-12 10:15:31 1940

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除