shenjianyu_rex
码龄9年
关注
提问 私信
  • 博客:10,912
    10,912
    总访问量
  • 20
    原创
  • 1,749,805
    排名
  • 1
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2016-02-26
博客简介:

shenjianyu_rex的博客

查看详细资料
个人成就
  • 获得4次点赞
  • 内容获得1次评论
  • 获得22次收藏
创作历程
  • 19篇
    2020年
  • 1篇
    2018年
成就勋章
TA的专栏
  • flink
    9篇
  • Apache集群搭建
    10篇
  • d
    1篇
兴趣领域 设置
  • 大数据
    hadoophivespark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flink Joining

前言数据流操作的一个常见需求是对两条数据流中的事件进行联结(connect)或Join。connect在前面Flink API文章中。Flink DataStream API中内置有两个可以根据时间条件对数据流进行Join的算子:Window Join和Interval Join。如果Flink内置的Join算子无法表达所需的Join语义,那么你可以通过CoProcessFunction、BroadcastProcessFunction或KeyedBroadcastProcessFunction实现
原创
发布博客 2020.09.08 ·
230 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink Window Triggers 触发器 和 EVICTORS 清理器

前言触发器定义了window何时会被求值以及何时发送求值结果。触发器可以到了特定的时间触发也可以碰到特定的事件触发。例如:观察到事件数量符合一定条件或者观察到了特定的事件。清理器是一个可选的组件,可以被注入到ProcessWindowFunction之前或者之后调用。evictor可以清除掉window中收集的元素。由于evictor需要迭代所有的元素,所以evictor只能使用在没有增量聚合函数作为参数的情况下。如果对window 的概念或者window的分配器不熟悉的话,可以看下前面的文章Flin
原创
发布博客 2020.09.07 ·
1056 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

Flink 迟到元素的处理

前言前面文章Flink中的时间语义 和WaterMark有详细介绍过Flink WaterMark。WaterMark的出现是用来解决乱序时间的处理也就是处理迟到元素的。WaterMark可以用来平衡计算的完整性和延迟两方面。除非我们选择一种非常保守的水位线策略(最大延时设置的非常大,以至于包含了所有的元素,但结果是非常大的延迟),否则我们总需要处理迟到的元素。迟到的元素是指当这个元素来到时,这个元素所对应的窗口已经计算完毕了(也就是说水位线已经没过窗口结束时间了)。这说明迟到这个特性只针对事件时间。
原创
发布博客 2020.09.07 ·
244 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

Flink中的时间语义 和WaterMark

1. Flink 时间语义Flink定义了三类时间处理时间(Process Time)数据进入Flink被处理的系统时间(Operator处理数据的系统时间)事件时间(Event Time)数据在数据源产生的时间,一般由事件中的时间戳描述,比如用户日志中的TimeStamp摄取时间(Ingestion Time)数据进入Flink的时间,记录被Source节点观察到的系统时间在Flink中默认使用的是Process Time,绝大部分的业务都会使用eventTime,一般只在eventTim
原创
发布博客 2020.09.07 ·
667 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flink Window

1.window 概述streaming流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集Window窗口就在一个无界流中设置起始位置和终止位置,让无界流变成有界流,并且在有界流中进行数据处理Window操作常见的业务场景:统计过去一段时间、最近一些元素的数据指标2.window 窗口的类型2.1 根据数据流是否keyBy划分 Keyed vs Non-Keyed Windows要指定是否是 Keyed windows 需要在wind
原创
发布博客 2020.09.07 ·
233 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink Process Function

前言转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下,极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此,DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件,例如超时事件等。Process Function用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window函数和转换算子无法实现)。例如,Flink SQL就是使用Pr
原创
发布博客 2020.09.07 ·
416 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

flink kafka connector

1.kafka connector版本选取Flink有多个Kafka connector:universal,0.10和0.11。 Flink 1.7 开始就有这个universal的Kafka connector通用版本,跟Kafka client端的尽量保持最新版本。这个版本的Kafka客户端向后兼容代理版本0.10.0或更高版本。对于大多数用户而言,universal的Kafka连接器是最合适的。对于Kafka版本0.11.x和0.10.x,我们建议分别使用专用的0.11和0.10连接器。
转载
发布博客 2020.09.07 ·
660 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink API

1.Flink API介绍Flink提供了不同的抽象级别以开发流式或者批处理应用程序Stateful Stream Processing 最低级的抽象接口是状态化的数据流接口(statefulstreaming)。这个接口是通过 ProcessFunction 集成到 DataStream API 中的。该接口允许用户自由的处理来自一个或多个流中的事件,并使用一致的容错状态。另外,用户也可以通过注册event time 和 processing time 处理回调函数的方法来实现复杂的计算D
原创
发布博客 2020.09.07 ·
387 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink 架构

1.Flink 运行时的角色Flink系统架构中包含了两个角色,分别是JobManager和TaskManager,是一个典型的Master-Slave架构。JobManager相当于是Master,TaskManager相当于是Slave。Clinet 负责将当前的任务提交给JobManager,提交任务的常用方式:命令提交、web页面提交。当Client提交任务之后,客户端可以断开连接(detached mode),也可以保持连接状态来接收任务的报告(attached mode)。JobMana
原创
发布博客 2020.09.07 ·
176 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

10.flink-1.11.1 安装部署

1 Standalone模式1.0 集群规划node06node07node08node10TaskManagerTaskManagerTaskManagerJobManager1.1 安装0)解压缩 flink-1.11.1-bin-scala_2.11.tgz,进入conf目录中。[root@node09 flink]# tar -zvxf flink-1.11.1-bin-scala_2.11.tgz /opt/module/1)修改 .
原创
发布博客 2020.09.04 ·
1100 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

9.Azkaban2.5 安装部署

1 安装前准备1.1 将Azkaban Web服务器、Azkaban执行服务器、Azkaban的sql执行脚本及MySQL安装包拷贝到node09:/opt/software目录下[root@node09 09_azkaban]# lltotal 98600-rw-r--r--. 1 root root 11157302 Aug 19 15:11 azkaban-executor-server-2.5.0.tar.gz-rw-r--r--. 1 root root 1928 Aug 19
原创
发布博客 2020.09.04 ·
237 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

8.hive安装 和 Hive环境准备 (hive on Spark 、Yarn队列配置)

1 Hive安装部署1)把apache-hive-3.1.2-bin.tar.gz上传到linux目录下2)解压apache-hive-3.1.2-bin.tar.gz到/opt/module/目录下面[root@node09 06_hive]# tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /opt/module/3)修改apache-hive-3.1.2-bin.tar.gz的名称为hive[root@node09 06_hive]# mv /o
原创
发布博客 2020.09.04 ·
1110 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

7.Sqoop1.4.6安装

1 下载并解压1.1下载地址http://mirrors.hust.edu.cn/apache/sqoop/1.4.6/1.2上传安装包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz到node09的/opt/software路径中1.3 解压sqoop安装包到指定目录,如:[root@node09 08_sqoop]# tar -zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz -C /opt/module/
原创
发布博客 2020.09.04 ·
361 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

6.Centos7 MYSQL安装

1. 安装包准备1.1 卸载自带的Mysql-libs(如果之前安装过mysql,要全都卸载掉)[root@node09 bin]# rpm -qa | grep -i -E mysql\|mariadb | xargs -n1 sudo rpm -e --nodeps1.2 将安装包和JDBC驱动上传到/opt/software,共计6个01_mysql-community-common-5.7.29-1.el7.x86_64.rpm02_mysql-community-libs-5.7.29
原创
发布博客 2020.09.04 ·
168 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

5.Kafka安装

0.集群规划node06node07node08kafkakafkakafka1. jar包下载http://kafka.apache.org/downloads2.解压安装包[root@node09 05_kafka]# tar -zxvf kafka_2.11-2.4.1.tgz -C /opt/module/3.修改解压后的文件名称[root@node09 module]# mv kafka_2.11-2.4.1/ kafka4.在/opt/modul
原创
发布博客 2020.09.04 ·
128 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

4.Flume1.9安装

1 Flume安装部署1.1 安装地址(1) Flume官网地址:http://flume.apache.org/(2)文档查看地址:http://flume.apache.org/FlumeUserGuide.html(3)下载地址:http://archive.apache.org/dist/flume/1.2 安装部署(1)将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下(2)解压apache-flume-1.9.0-bi
原创
发布博客 2020.09.04 ·
185 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

3.Zookeeper 3.5.7 安装

1. 集群规划node06node07node08ZookeeperZookeeperZookeeper2. 解压安装2.1 解压Zookeeper安装包到/opt/module/目录下[root@node06 03_zookeeper]# tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz -C /opt/module/2.2 修改/opt/module/apache-zookeeper-3.5.7-bin名称为zookeep
原创
发布博客 2020.09.04 ·
868 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

2.hadoop-3.1.3 安装和配置

Hadoop下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/1.hadoop 安装1.1 解压安装[root@node09 ~]# cd /opt/software/[root@node09 software]# tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/1.2 将Hadoop添加到环境变量[root@node09 hadoop-3.1.3]# sudo v
原创
发布博客 2020.09.04 ·
1133 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

1.Centos7.6 环境准备

1. 修改主机名称[root@node09 ~]# hostnamectl set-hostname node09[root@node09 ~]# hostname node09[root@node09 ~]# reboot2. 配置主机名称映射[root@node09 ~]# vim /etc/hosts添加主机配置192.168.2.165 node06192.168.2.166 node07192.168.2.167 node08192.168.2.176 node09192
原创
发布博客 2020.09.04 ·
260 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

IDEA上运行可以,hadoop 集群上报错。requested memory < 0, or requested memory > max configured, requestedMemo

在IDEA本地跑就可以执行过来,但是放到hadoop 集群上就出问题了。求各位大神帮忙
原创
发布博客 2018.02.07 ·
1293 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多