关掉别看了，再学就秃啦！-CSDN博客

原创解决new Gson().toJson(object) null值不进行转换问题

在对result进行json转换时，new Gson().toJson(result)，遇到null值不进行转换问题。使用GsonBuilder创建Gson即可解决，代码如下。

2023-04-19 15:08:34 928

Python numpy工具集numpy 是居于多维数组，进行处理和计算的工具集创建矩阵import numpy as npnp.array((...)|[....])np.array(dataframe.select(...).collect())#指定区间np.arrange([begin=0,end=10,step=5]) # 不包含end,开始、步长可以不设置 np.arrange(0,10,5) => [0,5] np.arrange(0,10) =>

2021-09-17 18:46:08 302

原创 spark中coalesce、repartition和partitionBy的区别

spark中coalesce、repartition和partitionBy的区别coalescefalse:不产生 shuffletrue:产生 shuffle如果重分区的数量大于原来的分区数量,必须设置为 true,否则分区数不变增加分区会把原来的分区中的数据随机分配给设置的分区个数repartitionrepartition实际上就是coalescerepartition(int n) = coalesce(int n, true)，也就是说，repartition默认就实现了s

2021-09-13 16:52:05 836 2

原创 ClickHouse的表引擎

ClickHouse的表引擎表引擎是 ClickHouse 的一大特色。可以说，表引擎决定了如何存储表的数据。包括：数据的存储方式和位置，写到哪里以及从哪里读取数据。支持哪些查询以及如何支持。并发数据访问。索引的使用（如果存在）。是否可以执行多线程请求。数据复制参数。表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎，以及引擎使用的相关参数。特别注意：引擎的名称大小写敏感。分类：Log 系列表引擎TinyLog 是 Log 系列引擎中功能简单、性能较低的引擎。它的存

2021-09-07 15:49:20 532 2

原创 Python3.6.6 安装

Python3.6.6 安装#安装python 依赖yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel#解压重命名tar -zxvf Python-3.6.6.tgz -C /opt/software/python/cd /opt/software/pythonmv Python-3.6.6/ python366#编译cd /opt/software/python/p

2021-09-05 21:07:49 724

原创在Hive中使用自定义UDF

在Hive中使用自定义UDF1. pom.xml文件中增加Hive包的依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.1.0</version></dependency>2. Java示例代码如下:package com.utils;import o

2021-09-05 20:57:02 826

原创 FlinkSQL 整合 Hive

FlinkSQL 整合 Hive介绍Flink 从 1.9 开始支持集成 Hive，不过 1.9 版本为 beta 版，不推荐在生产环境中使用。在 Flink1.10 版本中，标志着对 Blink 的整合宣告完成，对 Hive 的集成也达到了生产级别的要求。这里使用的 Flink 是 1.13.0，Hive 是 3.1.2。Flink 与 Hive 的集成方式Flink 与 Hive 的集成主要体现在以下两个方面:1.持久化元数据 Flink 利用 Hive 的 MetaStore 作

2021-09-05 12:07:06 2628 1

原创 Flink 学习总结

Flink 学习总结Flink特点高吞吐、低延迟、高性能支持 Event Time支持有状态的计算高度灵活的窗口计算支持轻量级分布式快照CheckpointsFlink和SparkStream对比♥♥♥本质：SparkStream 是以批处理技术为根本，将数据切成一个一个微小的批次从而实现流式处理（伪流处理）Flink 是完全的流式处理，只要数据一来，就会马上对其进行处理数据模型：Spark采用RDD，SparkStreaming中的DStream也就是一组一组的小批次RD

2021-09-02 19:30:11 1720 1

原创 Flink 的优化

Flink 的优化配置进程参数操作场景Flink on YARN 模式下，有 JobManager 和 TaskManager 两种进程。在任务调度和运行的过程中，JobManager 和 TaskManager 承担了很大的责任。因而 JobManager 和 TaskManager 的参数配置对 Flink 应用的执行有着很大的影响意义。用户可通过如下操作对 Flink 集群性能做优化。操作步骤（1）配置 JobManager 内存 JobManager 负责任务的调度，以及 TaskM

2021-09-01 21:57:29 846

原创 Spark Flink jar包依赖

Spark Flink jar包依赖Spark <properties> <scala.version>2.12.10</scala.version> </properties><dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library

2021-09-01 10:32:47 500

原创 Flink 的状态一致性

Flink 的状态一致性什么是状态一致性有状态的流处理，每个算子任务都可以有自己的状态。所谓的状态一致性，其实就是我们所说的计算结果要保证准确。一条数据不应该被丢失，也不应该被重复计算。在遇到故障时可以恢复状态，恢复以后得重新计算，结果应该也是完全正确的。状态一致性的分类At-Most-Once（最多一次）：当任务故障时，最简单的做法就是什么都不干，既不恢复丢失的数据，也不重复数据。最多处理一次事件。数据可能会丢失。但是处理的速度快。At-Least-Once（至少一次）：在大多数的

2021-08-31 19:01:15 468

原创 BroadcastState

BroadcastStatepackage org.example.broadcast_joinimport java.sql.{Connection, DriverManager, PreparedStatement}import com.alibaba.fastjson.JSONimport org.apache.flink.api.common.state.{MapStateDescriptor, ReadOnlyBroadcastState}import org.apache.flin

2021-08-31 17:31:36 340

原创 Flink的时间特性和窗口计算

Flink的时间特性和窗口计算时间特性在 TableAPI 或者 SQL 要使用基于时间的操作，需要定义相关的时间语义和时间数据来源的信息。所以，Table 可以提供一个额外的逻辑上的时间字段，用于在表处理程序中，指示时间和访问相应的时间戳。时间属性，可以是每个表 schema 的一部分。一旦定义了时间属性，它就可以作为一个字段引用，并且可以在基于时间的操作中使用。时间属性的行为类似于常规时间戳，可以访问，并且进行计算。定义处理时间（Processing Time）处理时间语义下，允许表处

2021-08-31 16:33:31 871

原创 Flink中 Table 和 DataStream 的相互转换

Flink中 Table 和 DataStream 的相互转换创建表环境 val bsEnv = StreamExecutionEnvironment.getExecutionEnvironment bsEnv.setParallelism(1) val bsSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build() val bsTableEnv = Stream

2021-08-31 15:32:28 988

原创 TableAPI和FlinkSQL的两种Connect

TableAPI和FlinkSQL的两种Connect依赖：<properties> <scala.version>2.12.10</scala.version> <mysql.version>8.0.11</mysql.version> <flink.version>1.13.0</flink.version> <encoding>UTF-8</encoding>

2021-08-31 15:12:57 570

原创 Flink中开窗的延迟触发、侧输出流的应用

Flink中开窗的延迟触发、侧输出流的应用注意如何处理迟到数据和侧数据流♥： flink 解决乱序事件：1.设定eventTime 和 waterMark 通过延时时长，使窗口等待一定时间以后再触发2.如果窗口已经触发了，还有数据没有来，那就使用允许迟到时间（allowedLateness）此时窗口虽然被触发了到那时没有关闭，等数据来了再次触发3.若允许迟到时间过了，还有数据没有来，那就使用将数据放入侧输出流流程图示意如下：import java.time.Durationimpor

2021-08-26 21:02:59 1230

原创 Kafka生产者、消费者工具类

Kafka生产者、消费者工具类简述自定义一个工具类，实现两个方法：从kafka中某个主题消费向kafka中某个主题生产实现import java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.connectors.kafka.{FlinkKafkaConsumer, FlinkKafkaProduce

2021-08-26 20:42:05 888

原创 Flink Streaming Dataflow

Flink Streaming Dataflow概念解释Dataflow:Flink 程序在执行的时候会被映射成一个数据流模型Operator: 数据流模型中的每一个操作被称作 Operator,Operator 分为:Source/Transform/SinkPartition:数据流模型是分布式的和并行的,执行中会形成 1~n 个分区 - Subtask:多个分区任务可以并行,每一个都是独立运行在一个线程中的,也就是一个 Subtask 子任务Paralle

2021-08-24 15:56:48 665

原创 Flink执行计划图

Flink执行计划图一、简述StreamGraph：是根据用户通过 Stream API 编写的代码生成的最初的图。用来表示程序的拓扑 [tuò pū] 结构。JobGraph：StreamGraph经过优化后生成了 JobGraph，提交给 JobManager 的数据结构。主要的优化为，将多个符合条件的节点 chain 在一起作为一个节点，这样可以减少数据在节点之间流动所需要的序列化/反序列化/传输消耗。ExecutionGraph：JobManager 根据 JobGraph 生成

2021-08-24 15:35:10 506

原创 Flink on yarn

Flink on yarn1.flink 与 yarn 的交互2.配置关闭yarn的内存检查，yarn-site.xml。并分发给其他节点。<property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value></property><property> <name>yarn.nodemanager.vme

2021-08-23 19:43:19 1296 3

原创 JS 、后端接口暴露模板

JS 、后端接口暴露模板结构（手动创建）index.html<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=device-width, initial

2021-08-18 19:46:16 629

原创 DOCKER部署FineBI

DOCKER部署FineBI1.编写Dockerfile文件♥♥♥注意点：文件名必须为Dockerfile，且没有后缀FROM centos:7MAINTAINER chenwei#设置系统编码,不然地图显示有问题RUN yum install kde-l10n-Chinese -yRUN yum install glibc-common -yRUN localedef -c -f UTF-8 -i zh_CN zh_CN.utf8#RUN export.UTF-8#RUN echo

2021-08-13 20:58:02 1359 3

原创解决Docker没有做端口映射问题

解决Docker没有做端口映射问题通过Xshell创建隧道网页输入 localhost:8081即可访问

2021-08-12 09:52:11 995

原创 AZKABAN的学习与使用

AZKABAN的学习与使用一、Azkaban的概述1.简介Azkaban是由Linkedin开源的一个批量工作流任务调度器用于在一个工作流内以一个特定的顺序运行一组工作和流程Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流2.特点兼容任何版本的Hadoop易于使用的web用户界面简单的 web 和 http 工作流上传项目工作区工作流调度模块化和可插拔的插件机制与常用工作流调度器Oozie的对比：1).工作流

2021-08-11 21:50:35 600

原创 LOG4J 配置文件

LOG4J 配置文件############## 输出到控制台############## log4j.rootLogger日志输出类别和级别：只输出不低于该级别的日志信息DEBUG < INFO < WARN < ERROR < FATAL# WARN/ERROR：日志级别 CONSOLE：输出位置自己定义的一个名字 logfile：输出位置自己定义的一个名字log4j.rootLogger=INFO,CONSOLE,logfile# 配置CON

2021-08-11 15:14:01 352

原创项目数据分层 ODS DW DM

项目数据分层 ODS DW DMODSODS 全称是 Operational Data Store，操作数据存储.“面向主题的”，数据运营层，也叫ODS层，是最接近数据源中数据的一层，数据源中的数据，经过抽取、洗净、传输，也就说传说中的 ETL 之后，装入本层。本层的数据，总体上大多是按照源头业务系统的分类方式而分类的。** 撰写脚本执行数据迁移 MySQL ===》Hive **#!/bin/bashsqoop import \--connect jdbc:mysql://192.168.6

2021-08-06 22:46:42 740

原创 Spark GraphX学习与理解

Spark GraphX学习与理解Spark GraphX 简介Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。图是由顶点集合(vertex)及顶点间的关系集合（边edge）组成的一种数据结构。图可以对事物以及事物之间的关系建模，图可以用来表示自然发生的连接数据，如：社交网络、互联网web页面。常用的应用有：在地图应用中找到最短路径、基于与他人的相似度图，推荐产品、服务、人际关系或媒体。图的分布式或

2021-08-05 15:36:14 725

Flink学习代码实。。。。。。。。。。。

springmvcmybatis.rar

java2hbase.rar

空空如也