自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

GavinKai

胜者为王

  • 博客(74)
  • 资源 (4)
  • 问答 (1)
  • 收藏
  • 关注

原创 数据指标简介

1.1 什么是数据指标 数据指标概念:可将某个事件量化,且可形成数字,来衡量目标。 数据指标的作用:当我们确定下来一套指标,就可以用指标来衡量业务,判断业务好坏 1.2 常用的业务指标 活跃用户指标:一个产品是否成功,如果只看一个指标,那么这个指标一定是活跃用户数 日活(DAU):一天内日均活跃设备数 月活(MAU):一个月内的活跃设备数 周活跃数(WAU):一周内活跃设备数 活跃度(DAU/MAU):体现用户的总体粘度,衡

2022-05-11 10:34:28 266

转载 【Flink】第九篇:Flink SQL 性能优化实战

【Flink】第九篇:Flink SQL 性能优化实战Flink2022-04-11 08:00以下文章来源于章鱼沉思录,作者章鱼(Carl)章鱼沉思录.生命以负熵为食缘起最近我们组在大规模上线Flink SQL作业。首先,在进行跑批量初始化完历史数据后,剩下的就是消费Kafka历史数据进行追数了。但是发现某些作业的追数过程十分缓慢,要运行一晚上甚至三四天才能追上最新数据。由于是实时数仓指标计算上线初期,经常验证作业如果有问题就得重蹈覆辙重新追数,效率很低,于是我..

2022-04-12 09:40:18 795

原创 Flink 常见问题排查与任务调优实践

Flink 问题排查 - 作业部署失败 现象:作业无法正常提交与启动 可能成因 确认方法 解决措施 程序包依赖与集群依赖存在版本冲突 日志:NoSuchMethodError/ IncompatibleClassChangeError/ ClassCastException 1.程序包中Flink/Hadoop相关依赖设为provided2.使用...

2021-12-11 08:36:51 2252

原创 Flink1.12 flink-conf.yaml配置

1.配置及注释1.1定位flink-conf.yaml是flink的配置文件,优先级在代码和提交参数之后是通用配置1.2注意点flink-conf.yaml中配置key/value时候在“:”后面需要有一个空格,否则配置不会生效。1.3参数解析#==============================================================================# 集群通用配置#==============================

2021-11-24 09:25:45 2264

转载 大数据开源框架技术汇总

目录 系统平台(Hadoop、CDH、HDP) 监控管理(CM、Hue、Ambari、Dr.Elephant、Ganglia、Zabbix、Eagle) 文件系统(HDFS、GPFS、Ceph、GlusterFS、Swift 、BeeGFS、Alluxio) 资源调度(YARN、Mesos、) 协调框架(ZooKeeper 、Etcd、Consul) 数据存储(HBase、Cassandra、ScyllaDB 、MongoDB、Accumu...

2021-11-24 08:40:49 421

原创 ClickHouse概述

ClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Management System) , 主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。ClickHouse是一个完全的列式分布式数据库管理系统,允许在运行时创建表和数据库,加载数据和运行查询,而无需重新配置和重新启动服务器,支持线性扩展,简单方便,高可靠性,容错。它在大数据领域

2021-11-21 18:04:33 1348

转载 FLINK源码

Flink 1.12.2 源码浅析 : 目录汇总 [持续更新中....]_张伯毅的专栏-CSDN博客

2021-11-11 09:21:36 78

转载 Flink维表Join

衡量指标总体来讲,关联维表有三个基础的方式:实时数据库查找关联(Per-Record Reference Data Lookup)、预加载维表关联(Pre-Loading of Reference Data)和维表变更日志关联(Reference Data Change Stream),而根据实现上的优化可以衍生出多种关联方式,且这些优化还可以灵活组合产生不同效果(不过为了简单性这里不讨论同时应用多种优化的实现方式)。对于不同的关联方式,我们可以从以下 7 个关键指标来衡量(每个指标的得分将以 1-..

2021-11-05 17:19:14 1812

翻译 Flink Streaming Yarn flink-conf.yaml 配置参数

配置参数1.12.5#==============================================================================# Common#==============================================================================# The external address of the host on which the JobManager runs and

2021-11-05 14:53:23 1049

翻译 Flink 1.12 状态与容错

概述Checkpoint 使 Flink 的状态具有良好的容错性,通过 checkpoint 机制,Flink 可以对作业的状态和计算位置进行恢复。参考Checkpointing查看如何在 Flink 程序中开启和配置 checkpoint。保留 CheckpointCheckpoint 在默认的情况下仅用于恢复失败的作业,并不保留,当程序取消时 checkpoint 就会被删除。当然,你可以通过配置来保留 checkpoint,这些被保留的 checkpoint 在作业失败或取消时不会..

2021-11-05 11:00:30 315

转载 腾讯面试,万字攻略详解, offer到碗里来

本文一万字,以非腾讯在职人的身份,来聊腾讯面试的流程、攻略和建议,但愿能助有缘人。标题涉及的范围很广,对多数面试腾讯的人而言,都有参考价值,看完本文之后,必有所得。退一步来讲,即便是准备面试其他公司,也有很多问题是相通的,亦可借鉴,有所广益。从毕业到现在,被别人面试过,也面试过别人,大大小小的面试,一两百次,也算久经沙场。本文分为三个部分,如下:Part1:面试流程Part2:面试攻略Part3:实用建议话不多说,我们一起来感受吧!Part1: 面试流程一. 整体流程

2021-11-05 09:51:25 342

原创 Flink 1.12 Task 故障恢复

当 Task 发生故障时,Flink 需要重启出错的 Task 以及其他受到影响的 Task ,以使得作业恢复到正常执行状态。Flink 通过重启策略和故障恢复策略来控制 Task 重启:重启策略决定是否可以重启以及重启的间隔;故障恢复策略决定哪些 Task 需要重启。Restart Strategies重新启动策略 Fixed Delay Restart Strategy固定延迟重新启动策略 Failure Rate Restart Strategy故障率重新启动策略 No Re...

2021-11-04 14:13:35 201

翻译 Flink1.12 Streaming TableConfig

在每个 TableEnvironment 中,TableConfig提供用于当前会话的配置项。对于常见或者重要的配置项,TableConfig提供带有详细注释的getters和setters方法。对于更加高级的配置,用户可以直接访问底层的 key-value 配置项。以下章节列举了所有可用于调整 Flink Table 和 SQL API 程序的配置项。注意因为配置项会在执行操作的不同时间点被读取,所以推荐在实例化 TableEnvironment 后尽早地设置配置项。// 实...

2021-11-04 11:01:07 385

转载 Flink+ClickHouse点击流实时数仓实践经验

Flink和ClickHouse分别是实时计算和(近实时)OLAP领域的翘楚,也是近些年非常火爆的开源框架,很多大厂都在将两者结合使用来构建各种用途的实时平台,效果很好。点击流及其维度建模所谓点击流(click stream),就是指用户访问网站、App等Web前端时在后端留下的轨迹数据,也是流量分析(traffic analysis)和用户行为分析(user behavior analysis)的基础。点击流数据一般以访问日志和埋点日志的形式存储,其特点是量大、维度丰富。以我们一个中等体量的普通电

2021-11-04 09:27:31 451

转载 Flink优化

1、资源配置调优 Flink性能调优的第一步,就是为任务分配合适的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。 提交方式主要是yarn-per-job,资源的分配在使用脚本提交Flink任务时进行指定。标准的Flink任务提交脚本(Generic CLI 模式)从1.11开始,增加了通用客户端模式,参数使用-D<property=value>指定。bin/flink...

2021-11-04 09:07:08 376

原创 Flink窗口应用代码结构

在流处理应用中,数据是连续不断的,有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。在这种情况下,我们必须定义一个窗口(window),用来收集最近1分钟内的数据,并对这个窗口内的数据进行计算。Windows 是处理无限流的核心。Windows 将流拆分为有限大小的“桶”,我们可以对其进行计算。Keyed Window // Keyed Window stream .keyBy(...) <...

2021-10-30 16:12:46 210

原创 Flink上下游分区算子

2021-10-30 16:01:42 103

原创 FlinkMysqlSource&FlinkMysqlSink

/*** 自定义Mysql Source*/public class CustomerMysqlSourceDemo {public static void main(String[] args) throws Exception {StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 获得自定义Source对象...

2021-10-30 15:55:52 124

原创 Flink1.13 pom.xml配置

<properties> <flink.version>1.13.1</flink.version> <java.version>1.8</java.version> <scala.binary.version>2.11</scala.binary.version> <hadoop.version>2.7.5</hadoop.version> <hbas.

2021-10-30 15:49:54 1257

原创 Flink三种提交方式

第一种方式:YARN session 操作步骤 说明 1 yarn-session.sh(开辟资源)+flink run(提交任务) 这种模式下会启动yarn session,并且会启动Flink的两个必要服务:JobManager和Task-managers,然后你可以向集群提交作业。同一个Session中可以提交多个Flink作业。需要注意的是,这种模式下Hadoop的版本至少是2.

2021-10-30 15:45:56 3338

原创 FlinkOnYarn架构图

Yarn的客户端需要获取hadoop的配置信息,连接Yarn的ResourceManager。所以要有设置有YARN_CONF_DIR或者HADOOP_CONF_DIR或者HADOOP_CONF_PATH,只要设置了其中一个环境变量,就会被读取。如果读取上述的变量失败了,那么将会选择hadoop_home的环境变量,都区成功将会尝试加载$HADOOP_HOME/etc/hadoop的配置文件。当启动一个Flink Yarn会话时,客户端首先会检查本次请求的资源是否足够。资源足够将会上传包含HDFS...

2021-10-30 15:37:08 125

原创 Flink PerJob模式和Application模式的区别

PerJob模式考虑到集群的资源隔离情况,一般生产上的任务都会选择per job模式,也就是每个任务启动一个flink集群,各个集群之间独立运行,互不影响,且每个集群可以设置独立的配置。特点:每次递交作业都需要申请一次资源优点:作业运行完成,资源会立刻被释放,不会一直占用系统资源缺点:每次递交作业都需要申请资源,会影响执行效率,因为申请资源需要消耗时间应用场景:适合作业比较少的场景、大作业的场景Application 模式flink-1.11 引入了一种新的部署模式,..

2021-10-30 00:41:33 2066 3

原创 FlinkHA配置

操作步骤 说明 1 在flink-conf.yaml中添加zookeeper配置 #开启HA,使用文件系统作为快照存储 state.backend:filesystem #默认为none,用于指定checkpoint的data files和meta data存储的目录 state.checkpoints.dir:hdfs://node01:8020/flink-checkpoin...

2021-10-30 00:25:27 450

原创 Flink批流一体的理解

在大数据处理领域,批处理任务与流处理任务一般被认为是两种不同的任务,一个大数据框架一般会被设计为只能处理其中一种任务:MapReduce只支持批处理任务;Storm只支持流处理任务;Spark Streaming采用micro-batch架构,本质上还是基于Spark批处理对流式数据进行处理Flink通过灵活的执行引擎,能够同时支持批处理任务与流处理任务在执行引擎这一层,流处理系统与批处理系统最大不同在于节点间的数据传输方式:对于一个流处理系统,其节点间数据传输的标准模型是.

2021-10-30 00:21:34 1570

原创 第2代计算框架——DAG框架(Tez)

不用去细究各种 DAG 实现之间的区别

2021-10-30 00:13:59 505

原创 Flink1.13优势一览

1.13包括一系列重要改动使用户可以更好的理解流作业的性能。当流作业的性能不及预期的时候,这些改动可以使用户可以更好的分析原因。这些改动包括用于识别瓶颈节点的负载和反压可视化、分析算子热点代码的 CPU 火焰图和分析 State Backend 状态的 State 访问性能指标。Flink1.13.1其中一些比较重要的修改包括:被动扩缩容 分析应用的性能 瓶颈检测与反压监控 Web UI 中的 CPU 火焰图 State 访问延迟指标 通过Savepoint来切换Sate Back

2021-10-30 00:09:15 535

原创 元宇宙的概念与探索

计算机生成的虚拟世界。小说主人公是一名披萨外卖员,现实中与人合租于狭小仓房,但当他将自己接入“元宇宙”,便入住虚拟豪宅。在“元宇宙”中,人人都有自己的“数字化身”-美国科幻作家尼尔·史蒂芬森的小说《雪崩》虚拟现实(VR)空间,用户可在其中与电脑生成的环境和其他人交流互动。在技术层面,虚拟现实、增强现实(AR)、5G、人工智能、区块链等技术是“元宇宙”发展的基础。其中AR、VR等交互技术和硬件设备是进入“元宇宙”的关键。目前,多家公司都推出了消费级VR头显设备,戴上它们玩沉浸式游戏、在线虚拟社交均已实

2021-10-29 08:56:46 557

原创 Flink流表转换DEMO

package pressure_measurement;import org.apache.flink.api.common.state.ListState;import org.apache.flink.api.common.state.ListStateDescriptor;import org.apache.flink.api.common.state.ValueState;import org.apache.flink.api.common.state.ValueStateDescri.

2021-10-28 07:09:47 273

原创 Flink 运维与调优

1 资源配置调优1.1 内存设置1.2 并行度设置1.2.1 最优并行度计算1.2.2 Source 端并行度的配置1.2.3 Transform端并行度的配置1.2.4 Sink 端并行度的配置1.3 RocksDB大状态调优1.4 Checkpoint设置1.5 使用 Flink ParameterTool 读取配置1.5.1 读取运行参数1.5.2 读取系统属性1.5.3 读取配置文件1.5.4 注册全局参数1.6 压...

2021-10-27 13:49:59 624

原创 Windows Hbase Docker实践

因为生产和测试集群要连内网有诸多不便,所以本地docker测试成为不二之选步骤1.生成docker container并运行docker run -d -p 2181:2181 -p 8080:8080 -p 8085:8085 -p 9090:9090 -p 9095:9095 -p 16000:16000 -p 16010:16010 -p 16201:16201 -p 16301:16301 -p 16030:16030 -p 16020:16020 --name hbase001 .

2021-10-21 22:53:15 111

原创 1.12 Flink HBase SQL 连接器

之前直接搬了1.14的连接器嫁接了一下,呆胶布HBase 连接器支持读取和写入 HBase 集群。本文档介绍如何使用 HBase 连接器基于 HBase 进行 SQL 查询。HBase 连接器在 upsert 模式下运行,可以使用 DDL 中定义的主键与外部系统交换更新操作消息。但是主键只能基于 HBase 的 rowkey 字段定义。如果没有声明主键,HBase 连接器默认取 rowkey 作为主键。1.1依赖为了使用HBase连接器,使用构建自动化工具(如Maven或SBT)的项目.

2021-10-21 22:05:10 492

原创 Hbase预分区与优化

1. Hbase设计七大原则1.1)每个region的大小应该控制在10G到50G之间;1.2)一个表最好保持在 50到100个 region的规模;1.3)每个cell最大不应该超过10MB如果超过,应该有些考虑业务拆分,如果实在无法拆分,那就只能使用mob;1.4)我们设置一个列族1.5)列族名必须尽量短因为我们知道在存储的时候,每个keyvalue都会包含列族名;1.6)如果一个表存在一个以上的列族,那么必须要注意,不同列族之间行数相差不要太大。例如列族A有10万行

2021-10-21 21:59:56 1056

原创 FlinkTable HbaseConnector范例

这个源码也有这个是1.14的,但是1.12要用,还没改connectorname spi不要冲突了/* * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copy.

2021-10-21 21:55:45 449

原创 FlinkTable ClickhouseConnector范例

package connector.clickhouse.table.catalog;import connector.clickhouse.table.ClickHouseDynamicTableFactory;import connector.clickhouse.table.config.ClickHouseConfig;import connector.clickhouse.table.util.ClickHouseTypeUtil;import connector.clickhou.

2021-10-21 21:44:45 258 1

原创 FlinkTable SocketConnector范例

其实这个源码里有package connector.socket.table;import org.apache.flink.api.common.serialization.DeserializationSchema;import org.apache.flink.api.common.typeinfo.TypeInformation;import org.apache.flink.table.connector.RuntimeConverter.Context;import org.ap

2021-10-21 21:37:30 176

原创 KAFKA压测实录

1.压测方案1.1 压测目的1.2 测试范围及方法1.2.1 测试范围概述1.2.2测试方法2. 生产环境压测2.1 生产环境集群配置2.2 生产环境producer压测脚本2.2.1创建TOPIC2.2.1.1创建3分区3副本TOPIC prd_pressure_test_3_3partition2.2.1.2创建4分区3副本TOPIC prd_pressure_test_4_3partition2.2.1.3创建6分区3副本TOPIC p...

2021-10-14 17:21:07 81

翻译 Apache Flink 1.14.0 发布公告

2021 年 9 月 29 日 Stephan Ewen (@StephanEwen) 和 Johannes Moser (@joemoeAT)Apache 软件基金会最近发布了年度报告,Apache Flink 再次跻身最活跃项目前 5 名!这一非凡的活动也体现在新的 1.14.0 版本中。200 多名贡献者再次致力于解决 1,000 多个问题。我们为这个社区如何持续推进项目而感到自豪。此版本在 SQL API、更多连接器支持、检查点和 PyFlink 等领域带来了许多新功能和改进。此...

2021-10-01 13:06:08 345

原创 SinkClickHouseDemo2

<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/ma.

2021-09-04 15:10:58 51

原创 FlinkClickHouseSink范例

package com.xxx.job;import com.alibaba.fastjson.JSONObject;import com.xxx.pojor.VisitorStats;import com.xxx.sink.ReportClickHouseSink;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.kafka.shaded.org.apache.kafka.c...

2021-08-30 09:35:19 134

原创 Zepplin解读

Zeppelin简介Apache Zeppelin是基于Web的笔记本notebook,支持Spark,Python,SQL,Scala等数据驱动的交互式数据分析和协作文档。Zeppelin Notebook可以满足数据摄取、数据发现、数据分析、数据可视化与协作。可视化支持的开发语言与技术支持Spark、PySpark、Spark R、Spark SQL(包含加载这些模块的依赖)允许无缝连接任何JDBC数据源,Postgrepsql、Mysql、MariaDB、Redshift、Ap

2021-05-27 23:39:41 8175 7

flink-connector-redis_2.11-1.1-SNAPSHOT.jar

编译好了,安全可用

2021-09-14

人工智能机器学习必备数学知识0604 .doc

AI

2021-03-22

启动集群相关命令.txt

大数据集群简易脚本

2021-03-22

线性代数的几何意义.doc

数学

2021-03-22

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除