活在风浪里~-CSDN博客

原创 flink cdc DataStream api 时区问题

这里主要使用第二种方式。/*** 处理Debezium时间转换的问题* Debezium默认将MySQL中datetime类型转成UTC的时间戳({@link io.debezium.time.Timestamp }) ，时区是写死的无法更改，* 导致数据库中设置的UTC+8，到kafka中变成了多八个小时的long型时间戳* Debezium默认将MySQL中的timestamp类型转成UTC的字符串。

2023-04-13 10:40:20 1501 14

原创 flink cdc 连接posgresql 数据库相关问题整理

原因：Flink CDC 在 scan 全表数据（我们的实收表有千万级数据）需要小时级的时间（受下游聚合反压影响），而在 scan 全表过程中是没有 offset 可以记录的（意味着没法做 checkpoint），但是 Flink 框架任何时候都会按照固定间隔时间做 checkpoint，所以此处 mysql-cdc source 做了比较取巧的方式，即在 scan 全表的过程中，会让执行中的 checkpoint 一直等待甚至超时。解决方法：默认会随机生成一个 server id，容易有碰撞的风险。

2023-04-13 10:27:08 1877

原创 Flink watermark

Flink水印的本质是DataStream中的一种特殊元素，每个水印都携带有一个时间戳。当时间戳为T的水印出现时，表示事件时间t T的数据。也就是说，水印是Flink判断迟到数据的标准，同时也是窗口触发的标记。本质上用来处理实时数据中的乱序问题的，通常是水位线和窗口结合使用来实现。

2023-04-13 09:59:49 271

原创 Flink timer定时器

flink为了保证定时触发操作(onTimer)与正常处理(processElement)操作的线程安全，做了同步处理，在调用触发时必须要获取到锁，也就是二者同时只能有一个执行，因此一定要保证onTimer处理的速度，以免任务发生阻塞。deleteEventTimeTimer(timestamp: Long): Unit 删除之前注册的事件时间定时器，如果没有此时间戳的定时器，则不执行。基于处理时间或者事件时间处理过一个元素之后, 注册一个定时器, 然后指定的时间执行.

2023-04-13 09:43:20 1694

原创基于flink 的LakeHouse 2.0湖仓一体架构

Lakehouse 是一种结合了数据湖和数据仓库优势的新范式，解决了数据湖的局限性。Lakehouse 使用新的系统设计：直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。如果你现在需要重新设计数据仓库，现在有了廉价且高可靠（以对象存储的格式）的存储可用，不妨考虑使用 Lakehouse。Lakehouse有如下关键特性：事物支持：Lakehouse 在企业级应用中，许多数据管道通常会同时读取和写入数据。

2023-04-13 09:28:22 367

原创 hive源数据通过sqoop数据集成工具导入到mysql报：ERROR tool.ExportTool: Error during export

除了hive表结构之外，我们再检查一下hive的数据，在hdfs/user/hive/warehouse/co中，可以在linux中hadoop fs -cat /user/hive/warehouse/co查看，为了方便我这里选择在windows中下载查看。在检查后我发现两个表结构是完全一致的，也有可能是hive的分隔符弄错了（–input-fields-terminated-by ‘,’），检查后也没有问题，hive中确实使用建表的’,’作为分隔符，那为什么会报错嘞？desc [表名];

2023-04-07 16:52:41 530 1

原创 Superset安装及使用

Anaconda是一个开源的包、环境管理器，可以用于在同一个机器上安装不同Python版本的软件包及其依赖，并能够在不同的Python环境之间切换，Anaconda包括Conda、Python以及一大堆安装好的工具包，比如：numpy、pandas等，Miniconda包括Conda、Python。Anaconda3安装完成后，每次打开终端都会激活其默认的base环境，我们可通过以下命令，禁止激活默认base环境。我查阅了一堆资料，感觉这两个不对劲，就换了下版本，然后就初始化成功了！

2023-04-07 16:11:58 1613

原创大数据平台安装

这里会展示安装部署操作的总结；点击"COMPLETE"完成所有安装动作。

2024-03-28 14:06:10 812

原创大数据平台安装

安装部署分为以下五个大步骤1.资源准备2.操作系统配置3.数据库配置4.ambari配置5.bigtop组件安装。

2024-03-28 11:27:48 507

原创实时数仓方实际落地如何选型和构建

*本文介绍了市面上常见实时数仓方案，并对不同方案的优缺点进行了介绍。在使用过程中我们需要根据自己的业务场景选择合适的架构。另外想说明的是实时数仓方案并不是“搬过来”，而是根据业务“演化来”的，具体设计的时候需要根据自身业务情况，找到最适合自己当下的实时数仓架构。**

2023-05-29 10:46:03 452

原创 Flink on kubernets operator的部署方式

【代码】Flink on kubernets operator的部署方式。

2023-05-05 17:25:44 570

原创 docker环境安装部署 Oracle 19c

操作系统：oracle19c 配置说明：主机名： cat /etc/hosts-----先安装单机版本一台：hadoop01本次使用docker 部署 Oracle19c。

2023-04-27 09:37:49 2382 1

原创【maven】scalac:error while loading ＜root＞,Error accessing

今天运行spark程序时，编译时报如下错。

2023-04-26 11:25:37 452

原创 k8s1.27.x 最新版本使用kubeadm 的containerd的方式安装

太平洋时间 2023 年 4 月 11 日，Kubernetes 1.27 正式发布。此版本距离上版本发布时隔 4 个月，是 2023 年的第一个版本。新版本中 release 团队跟踪了 60 个 enhancements，比之前版本都要多得多。其中 13 个功能升级为稳定版，29 个已有功能进行优化升级为 Beta，另有 18 个 Alpha 级别的功能，大多数为全新功能。操作系统：主机名： cat /etc/hosts----

2023-04-23 09:31:29 3278 2

原创大数据平台datasophon 测试部署

DataSophon是近日开源的一款国产自研大数据管理平台，致力于快速实现部署、管理、监控以及自动化运维大数据服务组件和节点的能力，帮助你快速构建起稳定、高效的大数据集群服务。

2023-04-20 17:56:39 3788

原创数据中台与数据治理

数据中台与数据治理01 市场在扩大，但是趋于理智，价值导向更明显数据中台是中国本土诞生的一个词，从技术的角度来讲，我个人认为是对数据架构和数据平台的一个巨大贡献，快速拉进了高不可攀的数据技术与实际应用的距离，让数据在企业落地变得触手可及。数据中台显然是近几年的一个行业热点，几乎所有有能力的客户，都会场合套用数据中台的概念来启动数据域建设或者改造，试图打破信息壁垒和数据烟囱，实现数据资产的整合。在数据要素配置的政策加持下，数据中台市场规模迅速扩大。最近看了一些数据，数据中台增长率从2019年的120

2023-04-20 10:55:05 552

原创企业级数据治理体系

数据治理是一个长期工作，需要相关从业者根据企业的数据现状和管理模式去构建和调整，建议边做实践边总结归纳，小步慢跑是一个很好的方式。

2023-04-20 10:18:14 141

原创 Apache Flink源码阅读环境搭建

Apache Flink源码阅读环境搭建版本win7jdk 1.8maven 3.6.3scala 2.11.8这些必须提前安装好1 下载源码# 下载源码git clone https://github.com/apache/spark.git# flink是用tag区分不同版本的，切换到目标版本 git checkout -b release-1.13.02 编译打包在项目根目录打开Git Bash运行如下命令# 设置大一点的内存，防止内存溢出export MAVEN_

2023-04-12 17:15:36 289

原创服务器最全安装、配置、启动Spark集群

（10）由于slave1节点也需要安装 spark，因此可以先将master节点的 /opt/spark-2.2.0 文件和 /etc/profile 文件拷贝到slave1的相同路径下。（11）由于slave2节点也需要安装 spark，因此可以先将master节点的 /opt/spark-2.2.0 文件和 /etc/profile 文件拷贝到slave2的相同路径下。（3）解压 spark 文件到当前目录（/opt）下面，使用相对路径或者绝对路径均可，下面的命令使用绝对路径。

2023-04-11 16:00:44 1945 2

原创服务器最全安装、配置Scala

（3）解压 scala文件到当前目录（/opt）下面，使用相对路径或者绝对路径均可，下面的命令使用绝对路径。（6）在命令行中输入scala，如果能进入到scala的shell命令行，则scala安装成功。（4）配置环境变量，编辑 /etc/profile 文件，在文件最后添加 scala 路径。（2）官网下载 scala 的安装包，并上传至服务器上。（1）切换到 /opt 目录下。（5）使环境变量生效。（7）退出scala。

2023-04-11 15:53:42 113

原创服务器最全安装、配置、启动Kafka集群

（10）由于slave2节点也需要安装 kafka，因此可以先将master节点的 /opt/kafka 文件和 /etc/profile 文件拷贝到slave2的相同路径下。（9）由于slave1节点也需要安装 kafka，因此可以先将master节点的 /opt/kafka 文件和 /etc/profile 文件拷贝到slave1的相同路径下。（3）解压 kafka 文件到当前目录（/opt）下面，使用相对路径或者绝对路径均可，下面的命令使用绝对路径。（1）切换到 /opt 目录下。

2023-04-11 15:49:05 708

原创服务器最全安装、配置Hive2.3.0版本

（8）进入/opt/hive-2.3.0/conf目录下，复制hive-default.xml.template文件为hive-site.xml，给hive-env.sh.template文件重命名为hive-env.sh。③、修改hive-site.xml文件的内容：将第75行的值修改为 /opt/hive-2.3.0/tmp/${user.name}（3）解压Hive文件到当前目录（/opt）下面，使用相对路径或者绝对路径均可，下面的命令使用绝对命令。（4）切换到/opt目录下给Hive文件重命名。

2023-04-11 15:38:45 301

原创服务器CDH6.3.2安装编译集成Apache Flink1.12.0

最后集成Flink 1.12.0版本成功到这就结束了！！！！最后编译的Flink安装包：提取码：1syp。

2023-04-10 17:52:39 350

原创服务器最全安装、配置、启动HBase集群

（6）将master节点的 /opt/hbase-1.3.1 文件和 /etc/profile 文件拷贝到slave1的相同路径下。（7）将master节点的 /opt/hbase-1.3.1 文件和 /etc/profile 文件拷贝到slave2的相同路径下。切换到 HBase 的配置文件目录下，这里配置文件的目录为/opt/hbase-1.3.1/conf/切换到hbase的安装目录的bin目录下，即/opt/hbase-1.3.1/bin。执行start-hbase.sh命令，启动hbase。

2023-04-10 16:44:25 939

原创最全服务器安装、配置、启动Hadoop 集群

（6）修改Hadoop的配置文件：需要修改核心配置文件core-site.xml，HDFS配置文件hadoop-env.sh、hdfs-site.xml，YARN配置文件yarn-env.sh、yarn-site.xml，MapReduce配置文件mapred-env.sh、mapred-site.xml，其他配置文件slaves。（8）将master节点的 /opt/hadoop-2.7.6 文件和 /etc/profile 文件拷贝到slave2的相同路径下。（1）切换到 /opt 目录下。

2023-04-10 16:29:12 778

原创服务器安装、配置、启动Zookeeper集群

（10）由于slave1节点也需要安装 Zookeeper，因此可以先将master节点的 /opt/zookeeper-3.4.10 文件和 /etc/profile 文件拷贝到slave1的相同路径下（拷贝的过程中需要输入yes，然后输入slave1的密码123456）（8）在/opt/zookeeper-3.4.10 目录下新建 data 目录，并切换到 /opt/zookeeper-3.4.10/data 目录下。（14）切换到 /opt/zookeeper-3.4.10/data 目录下。

2023-04-07 18:06:32 958 1

原创服务器搭建JDK

最全服务器搭建JDK

2023-04-07 17:15:32 896 1

原创使用CDH6.3.2安装Streamsets

将STREAMSETS-3.22.3.jar上传到cloudera-scm-server所在节点的/opt/cloudera/csd目录下。将下载的Streamsets3.22.3版本对应的安装包放在/opt/cloudera/parcel-repo路径下。打开官方提供的下载地址：https://accounts.streamsets.com/archives。已分配，已激活，点击Cloudera Manager回到主界面。点击选择主机，按需勾选要部署的节点。点击主机，点击Parcel。

2023-04-07 15:38:12 308 1

hellowangxiansheng的博客

原创 flink cdc DataStream api 时区问题

原创 flink cdc 连接posgresql 数据库相关问题整理

原创 Flink watermark

原创 Flink timer定时器

原创基于flink 的LakeHouse 2.0湖仓一体架构

原创 hive源数据通过sqoop数据集成工具导入到mysql报：ERROR tool.ExportTool: Error during export

原创 Superset安装及使用

原创大数据平台安装

原创大数据平台安装

原创实时数仓方实际落地如何选型和构建

原创 Flink on kubernets operator的部署方式

原创 docker环境安装部署 Oracle 19c

原创【maven】scalac:error while loading ＜root＞,Error accessing

原创 k8s1.27.x 最新版本使用kubeadm 的containerd的方式安装

原创大数据平台datasophon 测试部署

原创数据中台与数据治理

原创企业级数据治理体系

原创 Apache Flink源码阅读环境搭建

原创服务器最全安装、配置、启动Spark集群

原创服务器最全安装、配置Scala

原创服务器最全安装、配置、启动Kafka集群

原创服务器最全安装、配置Hive2.3.0版本

原创服务器CDH6.3.2安装编译集成Apache Flink1.12.0

原创服务器最全安装、配置、启动HBase集群

原创最全服务器安装、配置、启动Hadoop 集群

原创服务器安装、配置、启动Zookeeper集群

原创服务器搭建JDK

原创使用CDH6.3.2安装Streamsets

空空如也

空空如也