2021年01月_DemonHunter211

原创 maven依赖中的＜scope＞provided＜/scope＞

compile默认的scope，表示 dependency 都可以在生命周期中使用。而且，这些dependencies 会传递到依赖的项目中。适用于所有阶段，会随着项目一起发布provided跟compile相似，但是表明了dependency 由JDK或者容器提供，例如Servlet AP和一些Java EE APIs。这个scope 只能作用在编译和测试时，同时没有传递性。????????runtime表示dependency不作用在编译时，但会作用在运行和测试时，如JDBC驱动，适用运...

2021-01-28 16:43:36 12534

原创 Command line is too long. Shorten command line for *** or also for flink

修改项目下 .idea\workspace.xml，找到标签<component name="PropertiesComponent">，在标签里加一行<property name="dynamic.classpath" value="true" />

2021-01-28 16:09:52 152

原创 flink 滑动窗口预聚合

滑动窗口预聚合public class UserBehaviorAnalysis { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setStreamTimeCharacteristic(TimeCharacte

2021-01-27 10:56:09 716

原创 Flink 双流Join

comapjoin示例public class ConnectedStreamFlatMapSolution { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // control 会被 flatMap1 处理 .

2021-01-26 15:15:58 204

原创 Flink ProcessFunction 介绍

我们之前学习的转换算子是无法访问事件的时间戳信息和水位线信息的。而这在一些应用场景下，极为重要。例如MapFunction这样的map转换算子就无法访问时间戳或者当前事件的事件时间。基于此，DataStream API提供了一系列的Low-Level转换算子。可以访问时间戳、watermark以及注册定时事件。还可以输出特定的一些事件，例如超时事件等。Process Function用来构建事件驱动的应用以及实现自定义的业务逻辑(使用之前的window函数和转换算子无法实现)。.

2021-01-25 16:13:12 286

原创 RichFlatMapFunction_State 测试

import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.RichFlatMapFunction;import org.apache.flink.api.common.state.ValueState;import org.apache.flink.api.common.state.ValueStateDescriptor;import org.apa..

2021-01-25 16:09:19 192

原创 RichFlatMapFunction state测试

package com.flink.example;import org.apache.flink.api.common.functions.MapFunction;import org.apache.flink.api.common.functions.RichFlatMapFunction;import org.apache.flink.api.common.state.ValueState;import org.apache.flink.api.common.state.ValueStat.

2021-01-25 15:32:31 335 1

原创 flink state状态管理

一、flink状态原理1.1 什么是flink中的状态？为什么需要状态管理？ flink运行计算任务的过程中，会有很多中间处理过程。在整个任务运行的过程中，中间存在着多个临时状态，比如说某些数据正在执行一个operator，但是只处理了一半数据，另外一般还没来得及处理，这也是一个状态。假设运行过程中，由于某些原因，任务挂掉了，或者flink中的多个task中的一个task挂掉了，那么它在内存中的状态都会丢失，如果这时候我们没有存储中间计算的状态，那么就意味着重启这个计算任务时，需要从头开始将

2021-01-25 12:23:42 405

原创 Flink1.12 文档

API移除掉 ExecutionConfig 中过期的方法移除掉了ExecutionConfig#isLatencyTrackingEnabled方法, 你可以使用ExecutionConfig#getLatencyTrackingInterval方法代替.移除掉了ExecutionConfig#enable/disableSysoutLogging、ExecutionConfig#set/isFailTaskOnCheckpointError过期的方法。移除掉了-qCLI ...

2021-01-25 11:31:54 1528

原创 Flink 1.11 新特性

数仓架构离线数仓传统的离线数仓是由 Hive 加上 HDFS 的方案，Hive 数仓有着成熟和稳定的大数据分析能力，结合调度和上下游工具，构建一个完整的数据处理分析平台，流程如下：Flume 把数据导入 Hive 数仓调度工具，调度 ETL 作业进行数据处理在 Hive 数仓的表上，可以进行灵活的 Ad-hoc 查询调度工具，调度聚合作业输出到BI层的数据库中这个流程下的问题是：导入过程不够灵活，这应该是一个灵活 SQL 流计算的过程基于调度作业的级联计算，实时性太差

2021-01-25 11:07:08 391

原创 flink1.11 Flink SQL 新功能解读

在了解 Flink 整体发展趋势后，我们来看下最近发布的 Flink 1.11 版本在 connectivity 和 simplicity 方面都带来了哪些令人耳目一新的功能。#### FLIP-122：简化 connector 参数整个 Flink SQL 1.11 在围绕易用性方面做了很多优化，比如FLIP-122，优化了 connector 的 property 参数名称冗长的问题。以 Kafka 为例，在 1.11 版本之前用户的 DDL 需要声明成如下方式 CREATE TABLE.

2021-01-25 11:04:47 667

原创 Flink 水位线

水位线是什么窗口有了，但是要知道我们面对的是实时数据，而这些数据随时会出现延迟的情况，从几秒到几小时都有可能。如果要忽略这些数据，那么显然对于结果的计算是不准确的，可是要等待这些延迟数据的话，那岂不是等同于批处理了，我们等不了那么久的。这个时候水位线恰好就是来描述和解决这个问题的。它指定一个时间 T，表示时间 T 之前的数据已经全部到达，后续再迟到的数据会被直接丢弃。水位线用在哪里显然，使用处理时间来处理事件不会有延迟，因此也不需要水位线。所以水位线只出现在事件时间窗口，因而也可以将水位线看

2021-01-25 10:52:26 617 1

原创 Gradle和Maven的对比和区别

Gradle是可用于Java的几种构建工具之一, 但它不是唯一要考虑的构建自动化工具。 Maven是一个较旧且通常使用的替代方法, 但是该构建系统最适合我们的项目以及其他Java框架（例如Spring, Hibernate）的使用。当这两种工具都与越来越多的集成一起使用时, 很难决定哪种工具更合适。让我们讨论两种工具, 以了解哪种工具根据我们的需求更好。Gradle是一个开源的构建自动化工具, 它基于Apache Maven和Apache Ant的概念进行构建。它能够构建几乎所有类型的软件。它是为多项目

2021-01-25 10:50:31 1346

原创 flink 窗口滚动/滑动介绍

什么是窗口Flink作业中的窗口是指一种对无限数据流设置有限数据集，从而实现了处理无线数据流的机制。窗口本身只是个划分数据集的依据，它并不存储数据。当我们需要在时间窗口维度上对数据进行聚合时，窗口是流处理应用中经常需要解决的问题。Flink的窗口算子为我们提供了方便易用的API，我们可以将数据流切分成一个个窗口，对窗口内的数据进行处理窗口主要有两种，一种基于时间（Time-based Window），一种基于数量（Count-based Window）。本文主要讨论Time-based W...

2021-01-18 18:01:54 1373 1

原创 Python 优先级队列

javaPriorityQueue类在Java1.5中引入。PriorityQueue是基于优先堆的一个无界队列，这个优先队列中的元素可以默认自然排序或者通过提供的Comparator（比较器）在队列实例化的时排序。要求使用Java Comparable和Comparator接口给对象排序，并且在排序时会按照优先级处理其中的元素python 优先级队列这里按"值越大优先级越高"的顺序. 1 2 3 4 5 6 7 8 9.

2021-01-13 18:07:00 555 1

原创 UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray

报错:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray.https://github.com/steveloughran/winutilshadoop.dll放在C:\Windows\System32下

2021-01-13 12:34:02 214

原创 python使用kafka收发消息

简介kafka是最近几年很流行的消息队列中间件。在大数据以及后端服务领域有很广泛的应用。废话不多说，接下来直接上代码介绍python如何向kafka发送数据以及订阅数据。消息发布Kafka的消息是 " 发布--订阅" 模式的。接下来先介绍向kakfa发布消息。先安装python的kafka连接模块。pip install kafka-python.import timefrom kafka import KafkaProducerclass KafkaMsgProduc...

2021-01-12 17:56:14 4944 3

原创大数据框架Flink 部署模式

Flink支持三大部署模式：1. Local 本地部署Flink 可以运行在 Linux、Mac OS X 和 Windows 上。本地模式的安装唯一需要的只是Java 1.7.x或更高版本，本地运行会启动Single JVM，主要用于测试调试代码。2. Standalone Cluster集群部署Flink自带了集群模式Standalone，这个模式对软件有些要求：1.安装Java1.8或者更高版本2.集群各个节点需要ssh免密登录3. Flink ON YARNFli

2021-01-12 15:58:52 170

原创 Flink 1.11.3 本地环境调试webui

1 pom文件<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd"> <modelVersion>4.0.0</modelV

2021-01-12 11:53:49 1382

原创 Cassandra和HBase的区别

HBase的卡桑德拉 HBase is based on Bigtable (Google) Cassandra基于DynamoDB（Amazon）。它最初是由前亚马逊工程师在Facebook上开发的。这就是Cassandra支持多数据中心的原因之一。 HBase使用Hadoop基础架构（Zookeeper, NameNode, HDFS）。部署Hadoop的组织必须具有Hadoop和HBase的知识 Cassandra与Hadoop分开启动和发展, 其基础架构和操作知识要求与H

2021-01-11 10:48:18 802

原创经济学学科分类

经济学包括两个一级学科，理论经济学和应用经济学，金融学是应用经济学下的二级学科以下是我国的学科体系：一级学科：0201 理论经济学二级学科： 020101 政治经济学 020102 经济思想史 020103 经济史 020104 西方经济学 020105 世界经济 020106 人口、资源与环境经济学一级学科：0202 应用经济学二级学科： 020201 国民经济学 ...

2021-01-07 14:10:50 4687

原创 Lambda架构与Kappa架构区别

Lambda 架构:Lambda 架构总共由三层系统组成的：批处理层（Batch Layer），速度处理层（Speed Layer），以及用于响应查询的服务层（Serving Layer）。批处理层:使用可处理大量数据的分布式处理系统预先计算结果。它通过处理所有的已有历史数据来实现数据的准确性。这意味着它是基于完整的数据集来重新计算的，能够修复任何错误，然后更新现有的数据视图。输出通常存储在只读数据库中，更新则完全取代现有的预先计算好的视图。速度层:通过提供最新...

2021-01-06 14:42:36 2139

原创 Atlas 介绍

一、Atlas是什么？在当今大数据的应用越来越广泛的情况下，数据治理一直是企业面临的巨大问题。大部分公司只是单纯的对数据进行了处理，而数据的血缘，分类等等却很难实现，市场上也急需要一个专注于数据治理的技术框架，这时Atlas应运而生。Atlas官网地址：https://atlas.apache.org/Atlas是Hadoop的数据治理和元数据框架。Atlas是一组可扩展和可扩展的核心基础治理服务，使企业能够有效，高效地满足Hadoop中的合规性要求，并允许与整个企业数据生态系统集成。

2021-01-05 11:29:04 3622

原创元数据和元数据管理

元数据管理一、元数据的定义按照传统的定义，元数据（Metadata）是关于数据的数据。在数据仓库系统中，元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据；元数据是描述数据仓库内数据的结构和建立方法的数据，可将其按用途的不同分为两类：技术元数据（Technical Metadata）和业务元数据（Business Metadata）。技术元数据技术元数据是存储关于数据仓库系统技术细节的数据，是用于开发和管理数据仓库使用的数据，它主要包括以下信息：数据仓库结构的

2021-01-04 15:23:41 839

kwame211的博客