Mathieu66-CSDN博客

原创 Web3j客户端获取区块链数据示例

Web3j客户端获取区块链数据示例

2023-02-04 03:07:26 845

原创解析 ETH 区块数据交易input

解析 ETH 区块数据交易input的示例

2023-02-04 03:02:30 969

原创在控制台从指定时间戳消费kafka

在控制台从指定时间戳消费kafka

2022-10-18 16:10:35 1842

SinkTask 的源码实际位于Kafka项目中，主要用在 Kafka Connect 模块，它是一个接收 Kafka 数据，输出到外部系统的 Task 抽象类。其父类 Task 是个接口，只有三个方法：public interface Task { /** * Get the version of this task. Usually this should be the same as the corresponding {@link Connector} class's ver

2021-09-28 15:57:54 440

原创 Flink 动态读取Nacos配置

1.需求：实时读取Nacos的配置，打印在控制台2.额外的依赖： <dependency> <groupId>com.alibaba.nacos</groupId> <artifactId>nacos-client</artifactId> <version>1.4.2</version> </dependency>代码很简单,就直接贴了packa

2021-06-22 15:23:46 1976 2

原创 MacOS DBeaver连接达梦

1. 需求的由来项目上需要使用达梦数据库，而 Dbeaver 没有提供达梦的驱动支持（Windows 系统可以用过 ODBC 配置，而Mac 版本 DBeaver不再支持 ODBC），经过一番思考，调研，发现 DBeaver 支持自定义驱动，于是我们可以自定义一个达梦驱动，达到我们的目的。2.连接准备达梦驱动包，我这边是 : dm.jdbc.driver.dm7-7.1.5.jar, 在/Users/wangxianghu/nari/drivers 路径下。3. 配置达梦驱动打开 D.

2021-04-25 16:22:56 6833 5

原创 Hudi回调功能简介及使用示例

Hudi回调功能简介及使用示例1. 功能简介从0.6.0版本开始，Hudi开始支持 commit 回调功能。每当Hudi成功提交一次 commit, 其内部的回调服务就会向外部系统发出一条回调信息。用户可以根据该回调信息查询hudi表的增量数据，并根据具体需求进行相应的业务处理。1.1 支持的回调方式当前 HoodieDeltaStreamer 可用过 HTTP（默认）和 Kafka 两种方式向外部发送回调信息，而 SparkDataSource 只支持 HTTP 一种。两种数据摄入方式在使用回调

2020-12-25 15:47:16 1103

翻译 DataLake（翻译） - Martin Fowler 2015.02.05

原文地址：https://martinfowler.com/bliki/DataLake.html译文如下：Data Lake 是近十年出现的一个术语，用于描述大数据世界中数据根系管道的重要组成部分。其主题思想是为一个组织中任何人可能需要分析的所有原始数据提供一个存储。通常，人们使用Hadoop来处理湖中的数据，但这个概念不局限于Hadoop。当我听到要将要分析的所有数据汇总到一起时，我立即想到了数据仓库（和数据集市）。但是，数据湖和数据仓库之间存在重大区别。数据湖以数据源提供的任何形式存储

2020-08-18 17:52:59 336

原创 maven shade plugin: Invalid signature file digest for Manifest main attributes

使用maven shade 插件打包时报这个错Exception in thread "main" java.lang.SecurityException: Invalid signature file digest for Manifest main attributes在plugin配置下添加即可解决 <configuration> <filters> <filter>

2020-08-14 15:57:23 970

转载 yarn聚合日志（转载）

https://www.cnblogs.com/lemonu/p/12956741.html

2020-08-06 10:47:39 227

转载生态 | Apache Hudi集成Apache Zeppelin（转载）

https://mp.weixin.qq.com/s/_mNwL5uXSDYyqtLDPx0iDA

2020-04-29 10:56:05 314

原创 Flink集成Apollo获取配置V2

上一篇介绍了使用基础Java客户端接入Apollo的示例,有同学反映在分布式环境下获取不到Apollo配置，只能在main方法中初始化使用,姿势不够优雅。这里将Apollo的Java客户端将Flink官方推荐的ParameterTool结合使用，以解决该问题。package org.example;import com.ctrip.framework.apollo.ConfigFil...

2020-04-28 16:30:41 1356

原创使用Apache Avro序列化、反序列化数据

本文介绍如何使用avro序列化，反序列数据。Avro的简介请参阅：https://blog.csdn.net/Mathieu66/article/details/105601509我们知道使用Avro序列化、反序列化数据时需要使用数据的schema（schema是对数据结构的描述）。如何根据schema生成成java类，官网提供了两种方式：1）使用avro提供的工具包手动生成（这与使用Pr...

2020-04-18 19:25:43 1867

翻译 Apache Avro简介

目录介绍Schema与其他系统的比较本文翻译自：http://avro.apache.org/docs/current/index.html更多信息请查阅：http://avro.apache.org/docs/current/index.html介绍Apache Avro™是一个数据序列化系统:Avro提供：丰富的数据结构。一种紧凑，快速的二进制数据格式。...

2020-04-18 17:45:31 590

转载 HBase建表报错：ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

转载自：https://blog.csdn.net/RONE321/article/details/99940862?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1&utm_source=distribute.pc_relevant.none-task-bl...

2020-04-14 20:21:17 1378 1

原创数据湖 | Apache Hudi 设计与架构最强解读

本文将介绍Apache Hudi的基本概念、设计以及总体基础架构。1. 简介Apache Hudi(简称：Hudi)允许您在现有的hadoop兼容存储之上存储大量数据，同时提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。这两种原语分别是:Update/Delete记录：Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录，同时还提供写操作的...

2020-04-14 18:29:20 3052 1

原创 Flink集成Apollo实现获取配置信息

Apollo GitHub地址（除了代码，都是中文）：https://github.com/ctripcorp/apolloJava客户端使用指南：https://github.com/ctripcorp/apollo/wiki/Java%E5%AE%A2%E6%88%B7%E7%AB%AF%E4%BD%BF%E7%94%A8%E6%8C%87%E5%8D%97 开始之前多说两句，这...

2020-04-04 18:49:01 1656 6

转载 Mac安装MySQL(转载)

https://www.cnblogs.com/nickchen121/p/11145123.html

2020-04-04 14:49:47 184

原创 ERROR 1819 (HY000): Your password does not satisfy the current policy requirements

原因：秘密过于简单。grep 'temporary password' /var/log/mysqld.log解决办法：降低密码检查策略先用初始密码登录。1. 设置密码的验证强度等级为low。set global validate_password_policy=LOW;2.默认密码长度要求为8，可以修改也可以不改。我这边改成6set global validat...

2020-04-03 14:00:56 440

转载 CentOS7 Yum安装指定版本MySQL（转载）

https://baijiahao.baidu.com/s?id=1651079376862052761&wfr=spider&for=pc

2020-04-02 16:01:50 369

原创 Docker常用命令

目录一、帮助命令1. 查看docker版本2. 查看docker信息3. 查看docker帮助命令二、镜像命令1. 列出本地主机上的镜像2. 查询镜像3. 下载镜像4. 删除镜像三、容器命令1. 新建并启动容器2. 列出所有正在运行的容器3. 退出容器4. 启动容器5. 重启容器6. 停止容器7. 强制停止容器8. 删除已停...

2020-03-28 10:08:13 190

原创布隆过滤器（Bloom Filter）

1. 什么是布隆过滤器布隆过滤器（Bloom Filter后文简称BF）是由Howard Bloom 在1970年提出的二进制向量数据结构，它具有很好的空间和时间效率，尤其是空间效率极高，BF通常被用来检测某个元素是否是巨量数据集合中的成员（如果BF告诉你某个元素存在于某个巨量数据集合，那么，这只是可能存在，如果BF说不存在，那么一定不存在）。2. 基本原理BF可以高效的表征数据集合，...

2020-03-05 21:32:03 371

转载 versions-maven-plugin插件批量修改版本号

mvn versions:set -DnewVersion=2.0mvn versions:update-child-modules

2020-02-26 09:23:17 439

原创 Flink on Yarn 日志输出

Flink on Yarn 模式下，业务应用内部配置的 logback.xml/log4j.properties 是无法加载的，Flink 会默认采用安装目录下的 $FLINK_HOME/logback.xml/log4j.properties 作为统一的 logger 定义文件。Flink 提供的 logback.xml/log4j.properties 只配置了 rootLogger，如果...

2020-01-09 11:50:39 4157

转载 DataLake（转载）

DataLake5 February 2015Martin FowlerData Lake is a term that's appeared in this decade to describe an important component of the data analytics pipeline in the world of Big Data. The idea is t...

2020-01-04 11:28:12 1547

原创 Flink 停机恢复（savepoint）入门示例

目标：使用flink从socket接收字符串，根据空格分割成单词，统计单词出现的次数。使用savepoint取消任务，恢复，使计算从上一次停止的地方继续。主程序：package com.ccclubs.state;import com.ccclubs.function.StatefulWordCountFunction;import com.ccclubs.model.WordWi...

2019-08-19 22:28:24 1570

转载 Akka and Actors

目录Akka and ActorsAkka and the Actor ModelActor SystemsActors in FlinkJobManager & TaskManagerJobClientAsynchronous vs. Synchronous MessagesFailure DetectionFuture DevelopmentCo...

2019-06-11 23:51:15 421

转载 Continuous Queries on Dynamic Tables（转载）

目录Continuous Queries on Dynamic TablesWhy is SQL on Streams a Big Deal?Flink’s Relational APIs: Table API and SQLContinuous Queries on Dynamic TablesDefining a Dynamic Table on a StreamQue...

2019-06-02 20:37:01 578

转载 Juggling with Bits and Bytes(转载)

目录Juggling with Bits and BytesHow Apache Flink operates on binary dataData Objects? Let’s put them on the heap!What is Flink doing about that?How does Flink allocate memory?How does Flink ...

2019-06-02 20:32:40 536

转载 Introducing Complex Event Processing (CEP) with Apache Flink(转载)

目录Introducing Complex Event Processing (CEP) with Apache FlinkMonitoring and alert generation for data centersImplementation with Apache FlinkConclusionIntroducing Complex Event Processing (...

2019-06-02 20:30:16 336

转载 State TTL in Flink 1.8.0: How to Automatically Cleanup Application State in Apache Flink (转载)

https://flink.apache.org/2019/05/19/state-ttl.html（有空再翻译吧 ^_^）19 May 2019 Fabian Hueske (@fhueske) & Andrey ZagrebinA common requirement for many stateful streaming applications is to automati...

2019-06-01 20:19:54 598

原创 Flink有状态计算入门示例

需求：从socket接收字符串，按空格分隔成单词，统计单词出现的次数。直接看代码吧。主函数：FlinkStatefulCalcTest.javapackage com.ccclubs.flink;import org.apache.flink.streaming.api.datastream.DataStream;import org.apache.flink.strea...

2019-04-11 21:07:10 3154

翻译《Flink 技术内幕之 Jobs and Scheduling》（官网翻译）

目录一、Scheduling二、JobManager Data Structures本文简要描述了Flink如何调度作业，以及它如何表示和跟踪JobManager的作业状态。一、SchedulingFlink中的执行资源是通过任务槽（Task Slots）定义的。每个TaskManager将有一个或多个任务槽，每个任务槽可以运行一个并行任务管道。管道由多个连续的任务组成，例如M...

2019-04-08 16:50:34 1156

翻译《Flink 技术内幕之 Data Streaming Fault Tolerance》(官网翻译)

目录一、介绍二、Checkpoint三、Barriers四、State 五、精确一次和至少一次六、异步状态快照七、Recovery八、Operator 快照实现一、介绍Apache Flink提供了一种容错机制，可以一致地恢复数据流应用程序的状态。该机制确保即使出现故障，程序的状态最终也将准确地反映数据流中的每条记录（exactly once）。请注意，有...

2019-04-07 21:57:05 946

原创《Flink 使用 JDBCAppendTableSink 操作 Mysql入门示例》 Java版

前面写了个Flink操作Mysql的示例，Scala版本的，不过是对照源码的翻译。这两天使用Java开发（boss说不要用scala），这里贴一下使用方法。超简单的，大家注意看下代码。mysql相关的依赖（kafka的自行添加） <dependency> <groupId>org.apache.flink</groupI...

2019-04-02 17:07:55 3742

原创 SQuirreL通过Phoenix连接阿里云HBase2.X

SQuirreL通过Phoenix连接阿里云HBase2.XSQuirreL安装1.1 SQuirreL下载https://pilotfiber.dl.sourceforge.net/project/squirrel-sql/1-stable/3.9.1/squirrel-sql-3.9.1-standard.jar1.2 SQuirreL 安装1）打开shell窗口在SQu...

2019-03-25 11:34:28 809 2

原创 Kafka基本操作

命令行记不住，在这里记录一下。1.启动kafka(需先启动zookeeper)bin/kafka-server-start.sh config/server.properties2.创建topic[maxiu@zhumei00 kafka_2.11-2.1.1]$ bin/kafka-topics.sh --create --zookeeper zhumei00:2181 --...

2019-03-18 14:20:04 288

原创《StreamSets实现Kafka数据实时写入Mysql》

上一篇按照官网介绍实现了Mysql -> Mysql的数据同步。但订阅数据库过于死板，当源表数据结构发生变化时管道就要重新写，不够灵活。这一篇我们来看下数据通过kafka同步到mysql是如何配置的。kafka origin的安装就不介绍了，直接在Package Manager里点击安装就可以了。我们重点看下实现。啰嗦一句吧。kafka origin目前支持Avro、Binary、...

2019-03-17 21:00:05 5423 2

原创《StreamSets安装及Mysql数据同步入门示例》

一、安装部署1.1. jar包下载：https://archives.streamsets.com/datacollector/3.7.2/tarball/streamsets-datacollector-core-3.7.2.tgz[maxiu@zhumei00 softwares]$ wget --no-check-certificate https://archives.str...

2019-03-17 14:13:50 4966 6

原创 Spark-2.4.0 源码学习系列《Worker的启动过程》

目录一、Worker的main方法二、Worker初始化过程2.1 参数初始化2.2 onStart2.2.1 tryRegisterAllMasters()2.2.2 Option(self).foreach(_.send(ReregisterWithMaster))三、总结 Worker和Master一样，在Spark通信架构中都是一个EndPoint,...

2019-01-30 19:19:59 356

2021 Building the Unified Data Warehouse and Data Lake.pdf

Pro Apache Hadoop 2nd Edition 2014

空空如也