青涩的芒果汁-CSDN博客

原创 flink 实时写入 hudi 参数推荐

【金山文档】数据湖任务并行度计算 https://www.kdocs.cn/wo/sl/v1GIhjY。

2023-12-29 14:54:16 879

原创 mysql cdc 整库迁移 (mysql to mysql)

使用 flink cdc 和 jdbc catalog 进行整库迁移

2022-12-08 14:46:00 2372

原创 Flink cdc 2.3.0 日前发布，支持众多新特性

2.3.0 的发布了众多新特性

2022-11-18 17:13:19 2168

flink 消费Kafka 空指针问题error：2021-12-02 10:51:55,644 WARN org.apache.flink.runtime.taskmanager.Task [] - Source: Custom Source (1/3)#4 (92d97e5b78862c632d32b272b843bf4b) switched from RUNNING to FAILED with failure cause: java.lang.NullPointerException a

2021-12-14 09:41:20 4353 1

原创 Kafka常用消费者命令

bin/kafka-console-consumer.sh --bootstrap-server pDataHadoop05:9092 --topic dtinsure_mongo3.kbc_mpls_prod.InsurePlan2021 --from-beginningbin/kafka-console-consumer.sh --bootstrap-server pDataHadoop05:9092 --topic dtinsure_mongo3.kbc_mpls_prod.MarketFamily

2021-12-14 09:38:18 12961 3

原创 Kafka connector 操作

curl -X DELETE http://pDataxxx05:8083/connectors/xxx_mango_kbc_mpls_prod_02 curl -X PUT http://pDataxxx05:8083/connectors/xxx_mango_kbc_mpls_prod_01/pause curl -X GET http://pDataxxx05:8083/connectors/xxx_mango_kbc_mpls_prod_02/status curl -H "Accept:.

2021-12-14 09:33:29 1491

原创 debezium to oracle 11g 实时同步

第1章 debezium概述1.1 debezium是什么Debezium 是一组分布式服务，用于捕获数据库中的更改，以便您的应用程序可以查看这些更改并对其做出响应。 Debezium 在更改事件流中记录每个数据库表中的所有行级更改，应用程序只需读取这些流以查看更改事件发生的相同顺序。1.2 debezium的依赖Debezium 构建在 Apache Kafka 之上，并提供与 Kafka Connect 兼容的连接器，用于监控特定的数据库管理系统。 Debezium 在 Kafka 日志中记录数

2021-10-21 10:20:25 4090 8

原创 Flink基于HyperLogLog写入ES6实践代码

import com.alibaba.fastjson.JSONObject;import com.bean.ActiveBean;import com.bean.BaseBean;import com.utils.MyKafkaUtil;import net.agkn.hll.HLL;import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;import org.apache.flink.api.com

2021-07-07 10:30:20 297

原创记录一次Flink写入ES6的踩坑经历

近日在一次Flink打包运行插入ES的任务时，遇到一些版本冲突的问题Flink自己实现的连接器里提供的ES版本为6.3.1（6.x连接器版本）而我们集群环境则为6.5.4运行时会报一些异常java.lang.NoClassDefFoundError: org/apache/flink/streaming/connectors/elasticsearch/ActionRequestFailureHandlerat com.guttv.test.AgDayHyperLogLogUv.main(AgDa

2021-06-29 20:15:21 1163 1

原创 Flink运行架构

运行架构Flink Runtime 层的主要架构如下图所示，它展示了一个 Flink 集群的基本结构。整体来说，它采用了标准 master-slave 的结构，master负责管理整个集群中的资源和作业；TaskManager 则是 Slave，负责提供具体的资源并实际执行作业核心组件Application Master 部分包含了三个组件:Dispatcher负责接收用户提供的作业，并且负责为这个新提交的作业启动一个新的 JobManager 组件ResourceManager负责资源

2021-01-17 23:10:19 289

原创 kylin

报个服务没找到，服务却能用 kylin log 也没错

2020-11-09 14:59:32 169

原创 Ambari入门及安装

Ambari简述什么是AmbariApache Ambari项目旨在通过开发用于配置，管理和监控Apache Hadoop集群的软件来简化Hadoop管理。Ambari提供了一个直观，易用的Hadoop管理Web UI。Ambari的功能提供了跨任意数量的主机安装Hadoop服务的分步向导。处理群集的Hadoop服务配置。提供集中管理，用于在整个集群中启动，停止和重新配置Hadoop服务。提供了一个仪表板，用于监控Hadoop集群的运行状况和状态。利用Ambari指标系统进行指标收集。利用

2020-11-07 15:26:23 3926 2

原创 superset安装小坑

superset安装小坑https -> http

2020-11-05 22:25:20 172

原创无线网卡驱动突然坏了怎么办

排查原因，卸载重装驱动不能解决问题，网上各路教程无济于事在使用360驱动大师，驱动人生网卡版驱动精灵网卡版后发现驱动精灵在检测到网卡驱动有问题时，会提供一个最新版网卡驱动的二维码页面，手机扫码后即可下载最新版驱动，安装好后，解决问题！！...

2020-10-22 00:11:24 2487

原创 Python简单教程

Python综述python是什么Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特色语法结构。Python是一种解释型语言：这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。Python是交互式语言：这意味着，我们可以在一个Python提示符后面直接互动执行写自己的程序。Python是面向对象语言: 这意味着Python支持面向对象

2020-10-20 09:48:41 648 2

原创关于halo博客升级失败造成启动失败的修复

起因网页无法打开由于原来的文件路径在单独的module文件夹内，并进行了备份，但由于网络不通畅，新的升级包1.3.0并没有完成升级(文件夹内容为空)，后来发现导致配置文件里绝对路径启动的jar包自然没办法成功启动。而我在查找过程中，把备份也给删了！！修复因为配置文件和数据库等核心在 ~/.halo中，所以jar包丢失仅仅只导致不能启动。官方首推的wget https://dl.halo.run/release/halo-{{version}}.jar -O halo-latest.jar这个

2020-10-20 09:48:01 1287 5

原创 halo在域名绑定前上传的文章图片路径转移问题

问题阐述一开始我部署好halo博客后，就上传了文章和图片，然后在服务器备案之后，进行域名解析时发现，原来的文章和图片的链接前缀都是ip地址开头，导致博客地址从ip地址改为域名之后，文章样式，图片无法打开。解决办法查阅halo官方论坛后，发现图片等信息是在./halo 下存储数据信息在默认h2数据库目录下。官方给出了解决方案登录到服务器进入halo文件目录修改vim ~/.halo/application.yaml修改内容如下： h2: console:

2020-10-20 09:46:39 1214

原创配置ssl证书失败

安装 certbot 以及 certbot nginx 插件sudo yum install certbot python2-certbot-nginx -y执行配置，中途会询问你的邮箱，如实填写即可sudo certbot --nginx选择21自动续约sudo certbot renew --dry-run我个人执行到第二步报错Traceback (most recent call last):File “/usr/bin/certbot”, line 5, in from p

2020-10-20 09:44:31 738

原创 markdown语法收集

原因日前在写博客的过程中，没少使用md语法，但halo博客或者传统的md语法有时并不能满足全部需求,个别语法需要嵌入HTML语言来实现，感觉每次都上网搜比较麻烦，遂决定整理一下简单入门实例**粗体***斜体*# 一级标题## 二级标题### 三级标题#### 四级标题##### 五级标题###### 六级标题++下划线++~~中划线~~> 段落引用1. 452. 123- 1[链接](链接地址)![图片名称](图片链接地址)|表格|column2|co

2020-10-20 09:43:21 287

原创 datax简单入门和oracle数据库安装

概述什么是dataxDataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX的设计为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。框架设计运行原理快

2020-10-20 09:35:48 2111

原创官方maven jar包如果因网络原因下载失败(频繁出现last.updated)解决办法

一开始用下载jar包到本地maven仓库的方式，发现未能解决问题于是pom.xml文件里加入阿里云下载链接，即可解决 <repositories> <repository> <id>nexus-aliyun</id> <name>nexus-aliyun</name> <url>http://maven.aliyun.com/ne.

2020-10-20 09:33:36 849

原创阿里云服务器配置群发脚本时，脚本不起作用

sudo vim/etc/profile 加入一行：export PATH=$PATH:/脚本目录/再记得source 加载一下profile脚本成功启动

2020-10-20 09:31:51 333

原创用户画像简析

项目整体介绍电商平台系统上线运行一段时间后，可以收集到大量的用户行为数据；利用大数据技术进行深入挖掘和分析，可以得到感兴趣的商业指标。而随着大数据技术的深入研究与应用，简单的统计指标已经不能满足业务发展的需求了。企业的关注点，日益聚焦在、如何利用大数据，来为精细化运营和精准营销服务。而要做精细化运营，首先要建立本企业的用户画像。数据源分析项目所用到的数据源，就是业务系统中收集的数据，保存在MySQL的表中。主要有以下这些表：用户信息表（t_member）用户地址表（t_member_addr

2020-10-20 09:27:01 523 2

原创大数据技术之Debezium

Debezium概述Debezium是用于捕获变更数据的开源分布式平台。可以响应数据库的所有插入，更新和删除操作。Debezium依赖于kafka上，所以在安装Debezium时需要提前安装好Zookeeper，Kafka，以及Kakfa Connect。Kafka ConnectKafka Connect用于在Apache Kafka和其他系统之间可扩展且可靠地数据流传输数据的工具，连接器可以轻松地将大量数据导入或导出。 Kafka Connect当前支持两种模式，standalone和dist

2020-08-31 19:09:53 14570 1

原创 Flink简介

概述.流技术处理的演变.在开源世界里，Apache Storm项目是流处理的先锋。Storm最早由Nathan Marz和创业公司BackType的一个团队开发，后来才被Apache基金会接纳。Storm提供了低延迟的流处理，但是它为实时性付出了一些代价：很难实现高吞吐，并且其正确性没能达到通常所需的水平，换句话说，它并不能保证exactly-once，即便是它能够保证的正确性级别，其开销也相当大。在低延迟和高吞吐的流处理系统中维持良好的容错性是非常困难的，但是为了得到有保障的准确状态，人们想到了一

2020-08-30 13:47:28 450

weixin_40898246的博客