2020年05月_wuhulala

09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 FlinkX 部署

FlinkX 部署运行概述执行环境Java: JDK8及以上Flink集群: 1.4及以上（单机模式不需要安装Flink集群）操作系统：理论上不限，但是目前只编写了shell启动脚本，用户可以可以参考shell脚本编写适合特定操作系统的启动脚本。运行模式单机模式：对应Flink集群的单机模式standalone模式：对应Flink集群的分布式模式yarn模式：对应Flink集群的yarn模式yarnPer模式: 对应Flink集群的Per-job模式源码下载git clone

2020-05-27 22:40:10 3992 3

原创 FlinkX断点续传原理

FlinkX断点续传原理声明：前半部分官方文档+贴实现代码前提条件同步任务要支持断点续传，对数据源有一些强制性的要求：数据源（这里特指关系数据库）中必须包含一个升序的字段，比如主键或者日期类型的字段，同步过程中会使用checkpoint机制记录这个字段的值，任务恢复运行时使用这个字段构造查询条件过滤已经同步过的数据，如果这个字段的值不是升序的，那么任务恢复时过滤的数据就是错误的，最终导致数据的缺失或重复；数据源必须支持数据过滤，如果不支持的话，任务就无法从断点处恢复运行，会导致数据重复；

2020-05-26 22:27:48 2215 1

原创 Flink的实时同步(转载官方文档)

Flink的实时同步(转载官方文档)根据数据源的数据是否实时变化可以把数据同步分为离线数据同步和实时数据同步，上面介绍的断点续传就是离线数据同步里的功能，实时采集其实就是实时数据同步，当数据源里的数据发生了增删改操作，同步任务监听到这些变化，将变化的数据实时同步到目标数据源。除了数据实时变化外，实时采集和离线数据同步的另一个区别是：实时采集任务是不会停止的，任务会一直监听数据源是否有变化。基于binlog的实时采集目前FlinkX支持实时采集的插件有KafKa，binlog插件，binlog插件是专门

2020-05-26 22:27:10 1713

原创 FlinkX配置文件解析

FlinkX配置文件解析配置文件（本章节引自官网）一个完整的Flinkx任务脚本配置包含 content， setting两个部分。content用于配置任务的输入源与输出源，其中包含reader，writer。而setting则配置任务整体的环境设定，其中包含restore，speed，errorLimit，dirty，log。具体如下所示：{ "job" : { "content" :[{ "reader" : { ...... }, "writer

2020-05-24 18:21:45 1465

原创 FlinkX的数据类型

FlinkX的数据类型从上一章节里面看到：DataStream<Row> dataStream = dataReader.readData();这个简单的代码里面我们可以得出每一行数据都转化为了Row对象数据转化为了数据流我们下面看一下Row是如何满足所有的数据类型的？FlinkX 中的 Row这里的Row是指的org.apache.flink.types.RowA Row can have arbitrary number of fields and contain

2020-05-24 18:17:51 1111

原创 FlinkX 实现原理(全局总览)

FlinkX 实现原理从上一节的代码结构，我们知道FlinkX的结构是Core+Plugin，我们就简单分析一下Core.Core 代码架构基础支持classloader 自定义类加载器Exception 统一异常enums 统一枚举constants 常量options 入参选项配置util 工具类latch 同步类支持核心逻辑config 配置文件格式schemareader Reader插件writer Writer插件inputformat

2020-05-24 18:13:55 5329

原创 FlinkX 代码总体结构

总体结构可以看出来里面就一个Flink-Core然后和 DataX 类似都是 Core + Plugin的结构具体看一下 Plugin的结构也是Core + Reader + Writer的结构。

2020-05-24 18:12:31 855

原创 FlinkX脏值处理

FlinX脏值处理在大量数据的传输过程中，必定会由于各种原因导致很多数据传输报错(比如类型转换错误)，这种数据DataX认为就是脏数据。 – by DataX配置实例"dir

2020-05-24 18:10:34 1890 1

原创 FlinkX流控实现

FlinkX流控实现流量控制防止并发性能过高对源数据库造成影响。在FlinkX中，流量控制是采用Byte为单位/s进行流量控制的。配置参数实例：{ “speed”: { "bytes": 0 }}当 bytes > 0 时，才会开启流量控制。整个计算的速率是根据整个系统中的指标，按照每秒的窗口，实时计算出限流的速率的。通过对读取记录的限流，但是没有背压。限流原理实现逻辑首先我们看一下读取器的初始化过程，InputFormat初始化publi

2020-05-24 10:35:39 1987

原创 FlinkX 分片读取原理

FlinkX 分片读取原理在数据同步工具中,将数据从源头读取到数据缓存是最重要的一环之一，算是左膀。所以在整个流程，从技术场景上，一定要支持数据的分片与并行读取、流控，从业务角度上，需要支持脏值处理与增量读取。而今天重点来探讨一下分片读取的原理。分片原理分片是将待读取的数据平均分配，尽量的使各个分片任务均衡，不会让数据倾斜从而导致个别节点的同步压力过大（硬件-网卡、cpu等）。下面是配置了一个读取通道为3的作业配置示例："speed": { "channel": 3, "b

2020-05-23 23:38:28 1593

原创 Flink 数据同步先行者- FlinkX

Flink 数据同步先行者- FlinkX最近在学习Flink-Connector，并尝试使用一些小Demo。联想到之前的DataX与FlinkX，由感而发。从我个人的理解上，Connector就是为了数据通道而生的基础设施，而目前数据通道做的比较全的就是DataX。DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX本身作为离线数据同步框架，将

2020-05-17 12:20:10 4739 2

原创 IDEA 2020 Maven auto-import

现在发现这个idea 修改pom.xml 怎么不会自动导包了。Import Maven projects automatically 按钮也没有了看到官网有这么一段话IntelliJ IDEA 2020.1 brings a small but important update to our Maven and Gradle users. Instead of the old auto-import, there’s now a floating notification in the upper-

2020-05-17 11:30:58 7650 3

原创 Hue 安装

下载https://codeload.github.com/cloudera/hue/tar.gz/release-4.6.0依赖安装centossudo yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxml2-devel libxslt-devel make mysql mysql-devel openld.

2020-05-10 16:39:31 768

原创 Apache Kudu(三) Java Client 连接 Kudu

Java 客户端本地host配置(因为返回的是hostname，不是ip，如果不配置的话，会存在各种连不上)192.168.1.101 kudu-master-1 kudu-master-2 kudu-master-3构建maven 工程 <dependencies> <dependency> <groupId>org.apache.kudu</groupId> <art.

2020-05-10 16:37:33 2473

原创 Apache Kudu(二) 原理

文章目录概念OLAP & OLTP列式存储 & 行式存储存储模型结构：主键事务支持性能硬件需求对比HadoopHbaseKudu 设计目标架构组件1． Table 表（Table）2． Tablet3． Tablet Server4． Master Serverkudu 底层数据模型操作实现原理tablet 发现过程kudu 写流程数据读取过程kudu 更新流程概念OLAP & OLTPOLTP：快速插入和更新，并且可以精确查询。OLAP: 大规模的批量的数据

2020-05-10 16:36:34 573

原创 Apache Kudu(一) 安装

Kudu 安装快速开始准备好docker环境，如果没有请自行搜索Clone the Repositorygit clone https://github.com/apache/kuducd kudu启动集群设置IPexport KUDU_QUICKSTART_IP=$(ifconfig | grep "inet " | grep -Fv 127.0.0.1 | awk '{print $2}' | tail -1)启动Then use docker-compose to start

2020-05-10 16:35:44 737

原创 Apache Hive(二) 基本使用

命令交互交互式命令hivebin/hive-e 语句hive -e "select * from student"-f sql 文件hive -f xx.sqlbeeline启动 hiveserver2bin/hiveserver2nohup bin/hiveserver2 > > /dev/null 2>&1 &不考虑鉴权bin/beeline -u jdbc:hive2://bin/beeline -u jdbc:hive2:/

2020-05-10 16:34:06 962

原创 Apache Hive(一) 安装

环境centos7hadoop 2.7.7hive 3.1.2mysql 5.7.22安装目录 /opt/apache-hive-3.1.2-bin/下载binwget https://mirror.bit.edu.cn/apache/hive/hive-3.1.2/apache-hive-3.1.2-bin.tar.gz解压tar -zxvf apache-hive-3.1.2-bin.tar.gzcd apache-hive-3.1.2-bin配置c.

2020-05-10 16:32:39 304

原创 Impala(二) 架构与原理

概述Thanks to local processing on data nodes, network bottlenecks are avoided.由于对数据节点进行了本地处理，因此避免了网络瓶颈。A single, open, and unified metadata store can be utilized. 可以利用单个，开放和统一的元数据存储。Costly data format conversion is unnecessary and thus no overhead

2020-05-10 16:30:57 590

原创 Impala(一) 基本使用

Impala DEMOimpala shell[root@flinkhadoop ~]# impala-shell Starting Impala Shell without Kerberos authenticationOpened TCP connection to flinkhadoop:21000Connected to flinkhadoop:21000Server version: impalad version 3.2.0-cdh6.3.0 RELEASE (build 49539

2020-05-10 16:29:55 662

原创大数据环境搭建-CDH6.3.0安装

https://www.cloudera.com/documentation/enterprise/6/6.3/topics/cm_ig_mysql.html安装impala 非CDH 版本，恶心的一逼，算了老夫花了20分钟装了一个CDH。准备工作配置hostname设置hostname,一定要独一无二sudo hostnamectl set-hostname foo-1.ex...

2020-05-06 22:08:59 1858

原创私有云云笔记

私有云笔记如何搭建一个私有云笔记？需要有以下的功能云同步搜索引擎舒服的编写环境一个存图的地方离线也能写经过多次的尝试，初步稳定下来就是下面这些工具，相关教程可以直接网上搜索。...

2020-05-04 11:46:23 562

原创思维导图在文件夹分类的展示与应用

目前我在应用学习过程中，在学习一个新的知识或者领域的时候，往往会存在知识点相互关联。但是现在的分类大部分都是树形图表示，或者是windows文件夹，这种一层一层的结构，只有点进去才知道里面是什么。或者但是每一次查找一个文件的时候，就会使用EveryThing查找找出来呢就是平铺平铺平铺在这些天使用xmind这种思维导图的组织方式后，发现文件夹的分类是否可以采用思维导图的层次结...

2020-05-04 11:32:36 2728 4

istio-1.7.0-linux-amd64.tar.gz

从较高的层面来说，Istio 有助于降低这些部署的复杂性，并减轻开发团队的压力。它是一个完全开源的服务网格，作为透明的一层接入到现有的分布式应用程序里。它也是一个平台，拥有可以集成任何日志、遥测和策略系统的 API 接口。Istio 多样化的特性使您能够成功且高效地运行分布式微服务架构，并提供保护、连接和监控微服务的统一方法。

2020-08-23