Cxw1994-CSDN博客

原创 Flink的EventTime和WaterMark

EventTime是事件在现实世界中发生的时间，ProcessingTime是Flink系统处理该事件的时间。在实际业务处理中，我们使用EventTime的次数是大于ProcessingTime的。但问题就随之而来了，因为一系列问题会造成的消息的延迟到达，所以就引入了WaterMark这一概念来一定程度上减少消息延迟问题带来的不便。下面代码是演示的理想的情况下，无消息延迟的情况下，不需watermark。def main(args: Array[String]): Unit = { va

2021-08-31 19:57:57 402

原创 Flink常用转换算子和自定义函数

本篇文章主要介绍Flink中的常见转换算子、自定义函数和窗口函数一、转换算子1.单流输入val env = StreamExecutionEnvironment.getExecutionEnvironment1.1.map、filter：对流中的每个元素进行操作env.fromElements(1,2,3,4,5,6) .map(_*10) .print() env.fromElements(1,2,3,4,5,6) .filter(_&

2021-08-26 20:40:27 1232

原创 flink的常用Source和Sink

一、KafkaSource和KafkaSink 由于flink经常用于对数据实时流进行处理，而我们经常使用Kafka可以对流数据进行削峰处理，所以flink Streaming经常和kafka一起使用在flink中已经对kafka的source和sink进行比较高的整合度了，所以使用很方便def main(args: Array[String]): Unit = { val env = StreamExecutionEnvironment.getExecutionEnvironment

2021-08-26 19:30:07 831

原创 Hadoop集群搭建步骤

先前准备工作安装好jdk1.8版本并加入环境变量，配置好免密，处理好ip和节点名称的映射（所有节点都需要）一、系统配置Node1：ResourceManager和Namenode配置节点，并且也是DataNodeNode2：DataNodeNode3：DataNode二、基础概念hadoop主要包含了3个组件：存储组件hdfs、资源调度引擎yarn、计算引擎MapReduce1、hdfs集群NameNode: 资源存储目录，负责维护整个HDFS文件系统的目录树以及每一个路径(文件)对应的b

2021-08-22 14:03:19 1578 1

原创 flume常用配置

Flume简介： Apache Flume是一个分布式的、可靠的、可用的系统，用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储。不仅仅局限于日志数据聚合。由于数据源是可定制的，Flume可以用于传输大量事件数据，包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息和几乎所有可能的数据源。数据流模型： Event是Flume定义的一个数据流传输的最小单元。Agent就是一个Flume的实例，本质是一个JVM进程，该JVM进程控制Event数据流从外部日志生产者那里传输

2021-08-03 18:15:24 603

原创 sqoop简介及基本简单应用实例

一、 sqoop简介 Apache Sqoop™是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 2021年5月06日，Apache董事会宣布终止Apache Sqoop项目，但是我们依然可以继续使用Sqoop工具，只不过官方没有后续的bug修复了。由于Sqoop的实用性和普及性，我们还是有必要认识和了解Sqoop是如何使用的。二、Sqoop 原理将导入或导出命令翻译成 mapreduce 程序来实现。在翻译出的 mapred

2021-07-10 11:46:46 551

原创 Java连接MySQL数据库

Java连接MySQL数据库详解和代码工具：IDEA MySQL 驱动：mysql-connector-java:5.1.47MySQL驱动外部依赖下载地址：https://mvnrepository.com/artifact/mysql/mysql-connector-java/5.1.47 该文章主要介绍了如何利用Maven工程建立Java和MySQL数据库之间的连接。首先我们先建一个properties配置文件存放我们需要的连接数据，并将该文件放入工程文件的根目录下，连接数据库我们基

2021-05-23 16:22:00 228

原创字符流和字节流

在java中，流是一个相对抽象的概念，所谓流就是一个传输数据的通道，这个通道可以传输相应类型的数据。进而完成数据的传输。这个通道被实现为一个具体的对象。按照流的方向，可以分为输入流和输出流。按照流的方向，分为字节流和字符流。按照流的功能，分为节点流和处理流。本篇文章主要讨论字节流和字符流。字符流什么是字符流？在传输过程中，传输数据的最基本单位是字符的流。其分为读FileReader和FileWriter两个类，下面为主要用法： public static void main(String[]

2021-05-05 12:16:58 284

原创分享几个常用的工具类及其方法

在java.util包中，Java提供了一些实用的方法和数据结构，本篇文章就介绍了几个比较实用且常用的数据结构和方法。一.包装类在java中，我们一般使用基本类型就可以进行普通的数据操作，那我们为什么还要包装类呢？常见的包装类有：Character，String，Byte，Short，Integer，Long，Float，Double和Boolean，其对应的基本类型为char，String，byte，short，int，long，float，double和boolean。因为基本类型易于操作，且

2021-05-04 11:21:39 418

原创 ArrayList，LinkedList和HashMap

浅谈一下常用的集合：ArrayList，LinkedList和HashMapArrayList，Linkedlist和HashMap本质上都是数据操作方法的实现类，通过实现集合中的各自方法来完成对数组结构的操作。一.ArrayList1.ArrayList实现了Collection下的List中的接口。2.ArrayList是基于数组的结构。3.由于其地址的连续性，导致长度固定，类型固定，从而使得其灵活性不足，删除和插入性能低下4.常用方法indexOf(Object o):返回值为int，返

2021-05-02 21:15:53 1269

Cxw1994的博客