自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Flink Joining

前言数据流操作的一个常见需求是对两条数据流中的事件进行联结(connect)或Join。connect在前面Flink API文章中。Flink DataStream API中内置有两个可以根据时间条件对数据流进行Join的算子:Window Join和Interval Join。如果Flink内置的Join算子无法表达所需的Join语义,那么你可以通过CoProcessFunction、BroadcastProcessFunction或KeyedBroadcastProcessFunction实现

2020-09-08 14:06:18 179

原创 Flink Window Triggers 触发器 和 EVICTORS 清理器

前言触发器定义了window何时会被求值以及何时发送求值结果。触发器可以到了特定的时间触发也可以碰到特定的事件触发。例如:观察到事件数量符合一定条件或者观察到了特定的事件。清理器是一个可选的组件,可以被注入到ProcessWindowFunction之前或者之后调用。evictor可以清除掉window中收集的元素。由于evictor需要迭代所有的元素,所以evictor只能使用在没有增量聚合函数作为参数的情况下。如果对window 的概念或者window的分配器不熟悉的话,可以看下前面的文章Flin

2020-09-07 18:04:11 966

原创 Flink 迟到元素的处理

前言前面文章Flink中的时间语义 和WaterMark有详细介绍过Flink WaterMark。WaterMark的出现是用来解决乱序时间的处理也就是处理迟到元素的。WaterMark可以用来平衡计算的完整性和延迟两方面。除非我们选择一种非常保守的水位线策略(最大延时设置的非常大,以至于包含了所有的元素,但结果是非常大的延迟),否则我们总需要处理迟到的元素。迟到的元素是指当这个元素来到时,这个元素所对应的窗口已经计算完毕了(也就是说水位线已经没过窗口结束时间了)。这说明迟到这个特性只针对事件时间。

2020-09-07 18:03:39 218 1

原创 Flink中的时间语义 和WaterMark

1. Flink 时间语义Flink定义了三类时间处理时间(Process Time)数据进入Flink被处理的系统时间(Operator处理数据的系统时间)事件时间(Event Time)数据在数据源产生的时间,一般由事件中的时间戳描述,比如用户日志中的TimeStamp摄取时间(Ingestion Time)数据进入Flink的时间,记录被Source节点观察到的系统时间在Flink中默认使用的是Process Time,绝大部分的业务都会使用eventTime,一般只在eventTim

2020-09-07 18:03:02 627

原创 Flink Window

1.window 概述streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集Window窗口就在一个无界流中设置起始位置和终止位置,让无界流变成有界流,并且在有界流中进行数据处理Window操作常见的业务场景:统计过去一段时间、最近一些元素的数据指标2.window 窗口的类型2.1 根据数据流是否keyBy划分 Keyed vs Non-Keyed Windows要指定是否是 Keyed windows 需要在wind

2020-09-07 18:01:37 197

原创 Flink Process Function

前言转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此,DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件,例如超时事件等。Process Function用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window函数和转换算子无法实现)。例如,Flink SQL就是使用Pr

2020-09-07 17:58:59 354

转载 flink kafka connector

1.kafka connector版本选取Flink有多个Kafka connector:universal,0.10和0.11。 Flink 1.7 开始就有这个universal的Kafka connector通用版本,跟Kafka client端的尽量保持最新版本。这个版本的Kafka客户端向后兼容代理版本0.10.0或更高版本。对于大多数用户而言,universal的Kafka连接器是最合适的。对于Kafka版本0.11.x和0.10.x,我们建议分别使用专用的0.11和0.10连接器。

2020-09-07 17:58:06 565

原创 Flink API

1.Flink API介绍Flink提供了不同的抽象级别以开发流式或者批处理应用程序Stateful Stream Processing 最低级的抽象接口是状态化的数据流接口(statefulstreaming)。这个接口是通过 ProcessFunction 集成到 DataStream API 中的。该接口允许用户自由的处理来自一个或多个流中的事件,并使用一致的容错状态。另外,用户也可以通过注册event time 和 processing time 处理回调函数的方法来实现复杂的计算D

2020-09-07 17:57:24 321

原创 Flink 架构

1.Flink 运行时的角色Flink系统架构中包含了两个角色,分别是JobManager和TaskManager,是一个典型的Master-Slave架构。JobManager相当于是Master,TaskManager相当于是Slave。Clinet 负责将当前的任务提交给JobManager,提交任务的常用方式:命令提交、web页面提交。当Client提交任务之后,客户端可以断开连接(detached mode),也可以保持连接状态来接收任务的报告(attached mode)。JobMana

2020-09-07 17:55:34 126

原创 10.flink-1.11.1 安装部署

1 Standalone模式1.0 集群规划node06node07node08node10TaskManagerTaskManagerTaskManagerJobManager1.1 安装0)解压缩 flink-1.11.1-bin-scala_2.11.tgz,进入conf目录中。[root@node09 flink]# tar -zvxf flink-1.11.1-bin-scala_2.11.tgz /opt/module/1)修改 .

2020-09-04 16:46:37 1034

原创 9.Azkaban2.5 安装部署

1 安装前准备1.1 将Azkaban Web服务器、Azkaban执行服务器、Azkaban的sql执行脚本及MySQL安装包拷贝到node09:/opt/software目录下[root@node09 09_azkaban]# lltotal 98600-rw-r--r--. 1 root root 11157302 Aug 19 15:11 azkaban-executor-server-2.5.0.tar.gz-rw-r--r--. 1 root root 1928 Aug 19

2020-09-04 16:43:16 196

原创 8.hive安装 和 Hive环境准备 (hive on Spark 、Yarn队列配置)

1 Hive安装部署1)把apache-hive-3.1.2-bin.tar.gz上传到linux目录下2)解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面[root@node09 06_hive]# tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/module/3)修改apache-hive-3.1.2-bin.tar.gz的名称为hive[root@node09 06_hive]# mv /o

2020-09-04 16:36:30 1027

原创 7.Sqoop1.4.6安装

1 下载并解压1.1下载地址http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/1.2上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到node09的/opt/software路径中1.3 解压sqoop安装包到指定目录,如:[root@node09 08_sqoop]# tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/

2020-09-04 16:27:47 305

原创 6.Centos7 MYSQL安装

1. 安装包准备1.1 卸载自带的Mysql-libs(如果之前安装过mysql,要全都卸载掉)[root@node09 bin]# rpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --nodeps1.2 将安装包和JDBC驱动上传到/opt/software,共计6个01_mysql-community-common-5.7.29-1.el7.x86_64.rpm02_mysql-community-libs-5.7.29

2020-09-04 16:24:49 124

原创 5.Kafka安装

0.集群规划node06node07node08kafkakafkakafka1. jar包下载http://kafka.apache.org/downloads2.解压安装包[root@node09 05_kafka]# tar -zxvf kafka_2.11-2.4.1.tgz -C /opt/module/3.修改解压后的文件名称[root@node09 module]# mv kafka_2.11-2.4.1/ kafka4.在/opt/modul

2020-09-04 16:21:23 85

原创 4.Flume1.9安装

1 Flume安装部署1.1 安装地址(1) Flume官网地址:http://flume.apache.org/(2)文档查看地址:http://flume.apache.org/FlumeUserGuide.html(3)下载地址:http://archive.apache.org/dist/flume/1.2 安装部署(1)将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下(2)解压apache-flume-1.9.0-bi

2020-09-04 16:14:40 144

原创 3.Zookeeper 3.5.7 安装

1. 集群规划node06node07node08ZookeeperZookeeperZookeeper2. 解压安装2.1 解压Zookeeper安装包到/opt/module/目录下[root@node06 03_zookeeper]# tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz -C /opt/module/2.2 修改/opt/module/apache-zookeeper-3.5.7-bin名称为zookeep

2020-09-04 16:05:00 811

原创 2.hadoop-3.1.3 安装和配置

Hadoop下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/1.hadoop 安装1.1 解压安装[root@node09 ~]# cd /opt/software/[root@node09 software]# tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/1.2 将Hadoop添加到环境变量[root@node09 hadoop-3.1.3]# sudo v

2020-09-04 15:39:24 1053

原创 1.Centos7.6 环境准备

1. 修改主机名称[root@node09 ~]# hostnamectl set-hostname node09[root@node09 ~]# hostname node09[root@node09 ~]# reboot2. 配置主机名称映射[root@node09 ~]# vim /etc/hosts添加主机配置192.168.2.165 node06192.168.2.166 node07192.168.2.167 node08192.168.2.176 node09192

2020-09-04 15:29:24 220

原创 IDEA上运行可以,hadoop 集群上报错。requested memory < 0, or requested memory > max configured, requestedMemo

在IDEA本地跑就可以执行过来,但是放到hadoop 集群上就出问题了。求各位大神帮忙

2018-02-07 20:12:12 1244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除