自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 资源 (3)
  • 收藏
  • 关注

原创 MapReduce

MapReduce

2023-07-11 11:01:25 146

原创 解决new Gson().toJson(object) null值不进行转换问题

在对result进行json转换时,new Gson().toJson(result),遇到null值不进行转换问题。使用GsonBuilder创建Gson即可解决,代码如下。

2023-04-19 15:08:34 766 1

原创 Flink练习 当天活跃用户

Flink求当天uv

2022-09-30 14:05:00 862

原创 Flink工程 pom.xml

pom.xml

2022-09-30 10:34:07 514

原创 HIVE小文件合并

代码】HIVE小文件合并。

2022-08-11 11:31:13 520

原创 Python numpy工具集

Python numpy工具集numpy 是居于多维数组,进行处理和计算的工具集创建矩阵import numpy as npnp.array((...)|[....])np.array(dataframe.select(...).collect())#指定区间np.arrange([begin=0,end=10,step=5]) # 不包含end,开始、步长可以不设置 np.arrange(0,10,5) => [0,5] np.arrange(0,10) =>

2021-09-17 18:46:08 259

原创 spark中coalesce、repartition和partitionBy的区别

spark中coalesce、repartition和partitionBy的区别coalescefalse:不产生 shuffletrue:产生 shuffle如果重分区的数量大于原来的分区数量,必须设置为 true,否则分区数不变增加分区会把原来的分区中的数据随机分配给设置的分区个数repartitionrepartition实际上就是coalescerepartition(int n) = coalesce(int n, true),也就是说,repartition默认就实现了s

2021-09-13 16:52:05 769 2

原创 ClickHouse的表引擎

ClickHouse的表引擎表引擎是 ClickHouse 的一大特色。可以说, 表引擎决定了如何存储表的数据。 包括:数据的存储方式和位置,写到哪里以及从哪里读取数据。支持哪些查询以及如何支持。 并发数据访问。索引的使用(如果存在)。是否可以执行多线程请求。 数据复制参数。表引擎的使用方式就是必须显式在创建表时定义该表使用的引擎,以及引擎 使用的相关参数。特别注意:引擎的名称大小写敏感。分类:Log 系列表引擎TinyLog 是 Log 系列引擎中功能简单、性能较低的引擎。它的存

2021-09-07 15:49:20 498 2

原创 Python3.6.6 安装

Python3.6.6 安装#安装python 依赖yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel#解压重命名tar -zxvf Python-3.6.6.tgz -C /opt/software/python/cd /opt/software/pythonmv Python-3.6.6/ python366#编译cd /opt/software/python/p

2021-09-05 21:07:49 668

原创 在Hive中使用自定义UDF

在Hive中使用自定义UDF1. pom.xml文件中增加Hive包的依赖<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>1.1.0</version></dependency>2. Java示例代码如下:package com.utils;import o

2021-09-05 20:57:02 740

原创 FlinkSQL 整合 Hive

FlinkSQL 整合 Hive介绍Flink 从 1.9 开始支持集成 Hive,不过 1.9 版本为 beta 版,不推荐在生产环境 中使用。在 Flink1.10 版本中,标志着对 Blink 的整合宣告完成,对 Hive 的集成 也达到了生产级别的要求。这里使用的 Flink 是 1.13.0,Hive 是 3.1.2。Flink 与 Hive 的集成方式Flink 与 Hive 的集成主要体现在以下两个方面:1.持久化元数据 Flink 利 用 Hive 的 MetaStore 作

2021-09-05 12:07:06 2296 1

原创 Flink 学习总结

Flink 学习总结Flink特点高吞吐、低延迟、高性能支持 Event Time支持有状态的计算高度灵活的窗口计算支持轻量级分布式快照CheckpointsFlink和SparkStream对比♥♥♥本质:SparkStream 是以批处理技术为根本,将数据切成一个一个微小的批次从而实现流式处理(伪流处理)Flink 是完全的流式处理,只要数据一来,就会马上对其进行处理数据模型:Spark采用RDD,SparkStreaming中的DStream也就是一组一组的小批次RD

2021-09-02 19:30:11 1604 1

原创 Flink 的优化

Flink 的优化配置进程参数操作场景Flink on YARN 模式下,有 JobManager 和 TaskManager 两种进程。在任务调 度和运行的过程中,JobManager 和 TaskManager 承担了很大的责任。 因而 JobManager 和 TaskManager 的参数配置对 Flink 应用的执行有着很大的 影响意义。用户可通过如下操作对 Flink 集群性能做优化。操作步骤(1)配置 JobManager 内存 JobManager 负责任务的调度,以及 TaskM

2021-09-01 21:57:29 756

原创 Spark Flink jar包依赖

Spark Flink jar包依赖Spark <properties> <scala.version>2.12.10</scala.version> </properties><dependencies> <dependency> <groupId>org.scala-lang</groupId> <artifactId>scala-library

2021-09-01 10:32:47 456

原创 Flink 的状态一致性

Flink 的状态一致性什么是状态一致性有状态的流处理,每个算子任务都可以有自己的状态。所谓的状态一致性, 其实就是我们所说的计算结果要保证准确。一条数据不应该被丢失,也不应该被 重复计算。在遇到故障时可以恢复状态,恢复以后得重新计算,结果应该也是完 全正确的。状态一致性的分类At-Most-Once(最多一次):当任务故障时,最简单的做法就是什么都不干,既不恢复丢失的数据,也不 重复数据。最多处理一次事件。数据可能会丢失。但是处理的速度快。At-Least-Once(至少一次) :在大多数的

2021-08-31 19:01:15 413

原创 BroadcastState

BroadcastStatepackage org.example.broadcast_joinimport java.sql.{Connection, DriverManager, PreparedStatement}import com.alibaba.fastjson.JSONimport org.apache.flink.api.common.state.{MapStateDescriptor, ReadOnlyBroadcastState}import org.apache.flin

2021-08-31 17:31:36 303

原创 Flink的时间特性和窗口计算

Flink的时间特性和窗口计算时间特性在 TableAPI 或者 SQL 要使用基于时间的操作,需要定义相关的时间语义和时 间数据来源的信息。所以,Table 可以提供一个额外的逻辑上的时间字段,用于 在表处理程序中,指示时间和访问相应的时间戳。时间属性,可以是每个表 schema 的一部分。一旦定义了时间属性,它就 可以作为一个字段引用,并且可以在基于时间的操作中使用。时间属性的行为类 似于常规时间戳,可以访问,并且进行计算。定义处理时间(Processing Time)处理时间语义下,允许表处

2021-08-31 16:33:31 789

原创 Flink中 Table 和 DataStream 的相互转换

Flink中 Table 和 DataStream 的相互转换创建表环境 val bsEnv = StreamExecutionEnvironment.getExecutionEnvironment bsEnv.setParallelism(1) val bsSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build() val bsTableEnv = Stream

2021-08-31 15:32:28 907

原创 TableAPI和FlinkSQL的两种Connect

TableAPI和FlinkSQL的两种Connect依赖:<properties> <scala.version>2.12.10</scala.version> <mysql.version>8.0.11</mysql.version> <flink.version>1.13.0</flink.version> <encoding>UTF-8</encoding>

2021-08-31 15:12:57 519

原创 Flink中开窗的延迟触发、侧输出流的应用

Flink中开窗的延迟触发、侧输出流的应用注意如何处理迟到数据和侧数据流♥: flink 解决乱序事件:1.设定eventTime 和 waterMark 通过延时时长,使窗口等待一定时间以后再触发2.如果窗口已经触发了,还有数据没有来,那就使用允许迟到时间 (allowedLateness)此时窗口虽然被触发了到那时没有关闭,等数据来了再次触发3.若允许迟到时间过了,还有数据没有来,那就使用将数据放入侧输出流流程图示意如下:import java.time.Durationimpor

2021-08-26 21:02:59 1109

原创 Kafka生产者、消费者工具类

Kafka生产者、消费者工具类简述自定义一个工具类,实现两个方法:从kafka中某个主题消费向kafka中某个主题生产实现import java.util.Propertiesimport org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flink.streaming.connectors.kafka.{FlinkKafkaConsumer, FlinkKafkaProduce

2021-08-26 20:42:05 830

原创 Flink Streaming Dataflow

Flink Streaming Dataflow概念解释Dataflow:Flink 程序在执行的时候会被映射成一个数据流模型Operator: 数 据 流 模 型 中 的 每 一 个 操 作 被 称 作 Operator,Operator 分 为:Source/Transform/SinkPartition:数据流模型是分布式的和并行的,执行中会形成 1~n 个分区 - Subtask:多个分区任务可以并行,每一个都是独立运行在一个线程中的,也 就是一个 Subtask 子任务Paralle

2021-08-24 15:56:48 594

原创 Flink执行计划图

Flink执行计划图一、简述StreamGraph:是根据用户通过 Stream API 编写的代码生成的最初的图。用来表示程序的拓扑 [tuò pū] 结构。JobGraph:StreamGraph经过优化后生成了 JobGraph,提交给 JobManager 的数据结构。主要的优化为,将多个符合条件的节点 chain 在一起作为一个节点,这样可以减少数据在节点之间流动所需要的序列化/反序列化/传输消耗。ExecutionGraph:JobManager 根据 JobGraph 生成

2021-08-24 15:35:10 468

原创 Flink on yarn

Flink on yarn1.flink 与 yarn 的交互2.配置关闭yarn的内存检查,yarn-site.xml。并分发给其他节点。<property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value></property><property> <name>yarn.nodemanager.vme

2021-08-23 19:43:19 1197 3

原创 JS 、后端接口暴露 模板

JS 、后端接口暴露 模板结构(手动创建)index.html<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge"> <meta name="viewport" content="width=device-width, initial

2021-08-18 19:46:16 574

原创 DOCKER部署FineBI

DOCKER部署FineBI1.编写Dockerfile文件♥♥♥注意点:文件名必须为Dockerfile,且没有后缀FROM centos:7MAINTAINER chenwei#设置系统编码,不然地图显示有问题RUN yum install kde-l10n-Chinese -yRUN yum install glibc-common -yRUN localedef -c -f UTF-8 -i zh_CN zh_CN.utf8#RUN export.UTF-8#RUN echo

2021-08-13 20:58:02 1202 3

原创 解决Docker没有做端口映射问题

解决Docker没有做端口映射问题通过Xshell创建隧道网页输入 localhost:8081即可访问

2021-08-12 09:52:11 933

原创 AZKABAN的学习与使用

AZKABAN的学习与使用一、Azkaban的概述1.简介Azkaban是由Linkedin开源的一个批量工作流任务调度器用于在一个工作流内以一个特定的顺序运行一组工作和流程Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流2.特点兼容任何版本的Hadoop易于使用的web用户界面简单的 web 和 http 工作流上传项目工作区工作流调度模块化和可插拔的插件机制与常用工作流调度器Oozie的对比:1).工作流

2021-08-11 21:50:35 546

原创 LOG4J 配置文件

LOG4J 配置文件############## 输出到控制台############## log4j.rootLogger日志输出类别和级别:只输出不低于该级别的日志信息DEBUG < INFO < WARN < ERROR < FATAL# WARN/ERROR:日志级别 CONSOLE:输出位置自己定义的一个名字 logfile:输出位置自己定义的一个名字log4j.rootLogger=INFO,CONSOLE,logfile# 配置CON

2021-08-11 15:14:01 335

原创 项目数据分层 ODS DW DM

项目数据分层 ODS DW DMODSODS 全称是 Operational Data Store,操作数据存储.“面向主题的”,数据运营层,也叫ODS层,是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的 ETL 之后,装入本层。本层的数据,总体上大多是按照源头业务系统的分类方式而分类的。** 撰写脚本 执行数据迁移 MySQL ===》Hive **#!/bin/bashsqoop import \--connect jdbc:mysql://192.168.6

2021-08-06 22:46:42 679

原创 Spark GraphX学习与理解

Spark GraphX学习与理解Spark GraphX 简介Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面。常用的应用有:在地图应用中找到最短路径、基于与他人的相似度图,推荐产品、服务、人际关系或媒体。图的分布式或

2021-08-05 15:36:14 646

原创 虚拟机各软件端口号总结

虚拟机各软件端口号总结2222:22 ===> SSH3306:3306 ===> MySQL8020:8020 ===> HDFS RPC9870:9870 ===> HDFS web UI19888:19888 ===> Yarn job history8088:8088 ===> Yarn web UI9083:9083 ===> Hive metastore10000:10000 ===>

2021-08-01 09:36:01 1585

原创 Kafka的学习与使用

Kafka的学习与使用一、Kafka简介定义:Kafka是一种消息队列,主要用来处理大量数据状态下的消息队列,一般用来做日志的处理。既然是消息队列,那么Kafka也就拥有消息队列的相应的特性了。特点:分区式(预分区)、分布式、多副本、多订阅者消息持久化、高吞吐、分布式消费消息传递模式:发布者kafkaProducer -kafka server-订阅者kafkaConsumer模式耦合的状态表示当你实现某个功能的时候,是直接接入当前接口,而利用消息队列,可以将相应的消息发送到消息队列,这样

2021-07-30 15:12:16 378

原创 Flume + Kafka 结合案例

Flume + Kafka 结合案例创建Kafka主题启动kafka服务kafka-server-start.sh /opt/software/kafka/kafka280scala212/config/kraft/server.properties创建主题kafka-topics.sh --create --topic prolog_01 --partitions 1 --replication-factor 1 --bootstrap-server singlechen:9092创建F

2021-07-30 14:20:47 383

原创 SCALA、SPARK操作Mysql

SCALA、SPARK操作MysqlSCALA操作Mysql1.Jar包依赖 <!-- 连接mysql--> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.47</version> </dependenc

2021-07-27 15:38:28 699

原创 Scala中Array算子总结

Scala中Array算子总结提取元素 23 个arr.foreach(f:t => Unit) //一个foreach可以解析一层(维)数据val head: Int = arr.head //获取集合的第一个元素 arr空则报错val last: Int = arr.last //获取集合的最后一个元素 arr空则报错val head: Option[T] = arr.headOption //获取集合的第一个元素 arr空则返回Noneval last: Option[T] = a

2021-07-14 08:14:24 584

原创 MyBatis---sql映射文件

MyBatis—sql映射文件一、MySQL数据库对应的数据表二、Java实体类创建2.1、User类(负责用户登录)package cn.kgc.entity;public class User { private String user_account; private String user_pass; public User(String user_account, String user_pass) { this.user_account =

2021-07-06 18:45:31 420

原创 Flume的学习与使用

Flume的学习与使用一、Flume的简介1.1、Flume的作用Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。其最主要的作用就是,读取服务器本地磁盘的数据,将数据写入HDFS1.2 、Flume的基本组件...

2021-07-05 22:03:27 545 1

原创 利用Java将Mysql中的数据迁移到Hbase

利用Java将Mysql中的数据迁移到Hbase因为sqoop1.4.6/1.4.7 只支持向 Hbase 1.x 版本中导入数据,所以在使用Hbase 2以上的版本后需要解决其数据导入问题。配置文件内容hbase.zookeeper.quorum=192.168.64.180mysql.driver=com.mysql.jdbc.Drivermysql.url=jdbc:mysql://192.168.64.180:3306/schoolmysql.username=rootmysql.pa

2021-07-01 17:37:10 804

原创 SQOOP 数据导入与导出

SQOOP 数据导入与导出简介Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具,来自于Apache软件基金会提供主要功能:导入数据(import):从RDBMS的MySQL,Oracle 导入数据到 Hadoop 的 HDFS、Hive、Hbase 等数据存储系统导出数据(export):从 Hadoop 的文件系统中导出数据到关系数据库 Mysql等Export(导出)默认模式是将HDFS上的数据导入到Mysql中HDFS --> Mysq

2021-06-30 19:39:02 1241

Flink学习代码实。。。。。。。。。。。

Flink学习代码

2021-09-02

springmvcmybatis.rar

springmvc+mybatis

2021-07-07

java2hbase.rar

Mysql数据迁移到Hbase

2021-07-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除