花信風-Ling-CSDN博客

Maven插件使用1. 前言记录下自己使用maven插件的经历2. maven-scala-plugin使用该插件将同时存在java和scala代码的项目进行打包<build> <plugins> <plugin> <groupId>org.scala-tools</groupId> <artifactId>maven-scala-plugin</a

2022-04-26 15:44:27 319

原创将Kafka中的数据流式写入到数据湖Delta Lake中

Kafka-Delta使用1. 前言Delta Version : 1.0spark : 3.1.2scala : 2.12.10将Kafka的数据流式写入到Delta数据湖中2. kafka原始数据格式名称类型user_idLongstation_timeStringscoreIntlocal_timeString3.1 构建sparkval spark: SparkSession = SparkSession.builder()

2022-04-12 10:36:30 1772 2

原创 Spark-StructuredStreaming对mongo实现自定义流数据源

Spark-StructuredStreaming-Mongo1. 介绍最近，有一个新需求，需要将mongo某个表的增量数据，实时同步到数据湖仓库中，于是自定义了这么一个数据源。mongoDb-stream数据源，通过扩展Spark Structured Streaming的Source和Sink实现对mongoDb数据库的流读和流写功能。使用需要通过option传入mongo-ip，数据库名，集合名。流处理读取还须指定schema，流处理回写入mongo时可以不使用。只支持append增量模式

2021-12-10 13:06:08 2028

原创 Unbuntu 18.04 ElasticSearch集群+Head插件+Kibana安装

Unbuntu 18.04 ElasticSearch集群+Head插件+Kibana安装1. 前言因为部分任务需要使用到Es，所以这次将Es集群搭建在原先已经安装好的大数据集群上，顺便搭建了Head，Kibana等工具。主要记录了配置文件的相关信息和一些重要步骤。2. 集群设计这次选择将Es集群搭建在3台机器上，再另外选择一台机器搭建Head，KIbana等可视化工具。ElasticSearch版本7.8.0Kibana版本7.8.0安装Es需要满足Java1.8以上安装Head，Kiba

2021-11-26 14:42:08 270

原创 Unbutu18.04 搭建hive,使用mysql作为元数据仓库

Unbutu18.04 搭建hive,使用mysql作为元数据仓库1. 前言在已经搭建的Hadoop Ha集群上搭建hive主要记录了配置文件信息hive版本 3.1.2mysql版本 5.7.362. mysql安装安装sudo apt install mysql-server使用debian-sys-maint账号登录mysql -udebian-sys-maint -p# 密码在etc/mysql/debian.cnf修改root密码use mysql;up

2021-11-19 15:23:07 1990

原创 zookeeper + kafka + kafka-eagle集群搭建

zookeeper + kafka + kafka-eagle集群搭建1. 前言记录zookeeper集群和kafka集群的搭建步骤，并配置可视化工具kafka-eagle。主要记录配置文件相关信息在ubuntu18.04环境下，可以正常使用，运行。注：kafka集群的使用，需要zookeeper集群2. 节点架构信息节点Zookafkakafka-Eaglenode3√√√node4√√node5√√集群版本号端口

2021-11-15 14:00:55 2332

原创 mongodb Ubuntu18.4安装手册

1. 前言ubuntu18.04 安装mongodb，通过配置文件启动mongodb版本 4.2.172. mongodb安装安装curllib4 sudo apt install curl创建配置文件 mongodb.confsystemLog: #MongoDB发送所有日志输出的目标指定为文件 destination: file path: "/usr/local/mongo/log/mongodb.log" logAppend: truestorage:

2021-11-12 14:24:35 582

原创 Hadoop Ha + Hbase + Spark高可用集群搭建手册

Hadoop Ha + Hbase + Spark高可用集群搭建1.前言记录Hadoop Ha + Hbase+ Spark高可用集群的搭建，主要包括每个组件的配置信息，以及启动步骤。在ubuntu18.04环境下，集群可以正常使用，运行。2.Ling-Ha集群架构信息节点NnRmDFSZKDnNmJnZoosparkHmHrnode1√√√√√node2√√√√node3√√√√√√

2021-11-12 10:15:31 1942

czladamling的博客

原创 Apache Kylin 5.0在Ubuntu18.04的部署教程

原创 TDengine使用踩坑，TDengine ERROR： invalid data or symbol

原创利用Mybatis的TypeHandler实现字段加密

原创 Ubuntu使用tar包安装nginx

原创 Java常用时间转换函数

原创 TDengine安装踩坑，报错dnode file:/var/lib/taos//dnode/dnode.json not exist

原创在不联网的服务器上，使用tar包安装mysql和redis

原创 java实现统计一段时间内的数据，没有的话默认补零。

原创 Presto-submitter组件

原创 Mysql数据全量入湖Delta Lake存储，耗时效果

原创使用Spark Structured Streaming将Kafka的数据写入到Hudi数据湖中

原创使用Spark Structured Streaming将Kafka的数据写入到Iceberg数据湖中

原创 Scala语言实现读取，访问Yarn客户端

原创将Springboot的MultipartFile文件上传到Hadoop文件系统

原创通过hadoop配置文件快速构建可reusable的Hadoop fs

原创获取已经存在的hudi表中的元数据信息

原创 presto集群部署，并读取delta lake数据

原创 flink任务提交,查询,停止工具

原创使用flink将kafka数据同步到delta数据湖中

原创使用flink将mysql数据入湖delta

原创 Spark总结

原创使用PackagedProgram封装Flink程序,然后构建JobGraph,提交Flink集群

原创记录Maven插件的使用