自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 Streamx安装部署(1.2.2)

一. 介绍StreamX, 项目的初衷是 —— 让 Flink 开发更简单, 使用StreamX开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamX 规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供scala和java两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案二. 快速开始2.1 构建StreamX(需要jdk和mave

2022-04-02 11:26:49 3339 1

原创 Flink读取kafka的Topic,如果不存在就创建这个topic

【代码】Flink读取kafka的Topic,如果不存在就创建这个topic。

2023-03-28 16:09:48 398

原创 使用docker-compose部署clickhouse、flink、java定时脚本

使用docker-compose部署clickhouse、flink、java项目

2023-03-28 16:05:17 892

原创 Flinksql 读写pgsql

2 踩坑如果pgsql使用了schema,name此时表名需要``转义,否则会报找不到medical object

2022-06-27 19:20:52 1836

原创 Flink1.14新版kafkaSource和kafkaSink

工具类public class KafkaUtils { /** * 功能描述: <br> * 〈自定义build,生产kafkaSource〉 * @Param: [env, topic, groupId, offsets] * @Return: org.apache.flink.streaming.api.datastream.DataStreamSource<java.lang.String> * @Author: s

2022-05-31 11:20:11 2503 1

原创 Flink on docker

一. 镜像1. 官网搜索:https://hub.docker.com/_/flink?tab=tags&page=1&ordering=-name&name=1.13.12. 直接pulldocker pull flink:1.13.1-scala_2.12-java83. 写Dockerfile# 这里可以按照你的需要对镜像个性化定制,修改配置文件,增加各种依赖FROM flink:1.13.1-scala_2.12-java8RUN mkdir -p /op

2022-04-28 16:01:02 3101

原创 Flink On K8s

一. 环境1. 可用的k8s集群2. 宿主机有flink在这里插入图片描述3. 创建k8s命名空间# 创建namespacekubectl create namespace flink-session-test# 新建一个serviceaccount, 提交flinkkubectl create serviceaccount flink -n flink-session-test# 绑定kubectl create clusterrolebinding flink-role-bin

2022-04-28 11:56:13 2483

原创 Flink压缩并按照指定字段分区发送Kafka

一. 工具类/** * 功能描述: <br> * 〈按照指定的filed字段分区发送到kafka〉 * @Param: [topic, filed] * @Return: org.apache.flink.streaming.connectors.kafka.FlinkKafkaProducer<java.lang.String> * @Author: sheng * @Date: 2022/4/28 10:16 上午 */ public static Fli

2022-04-28 10:20:29 569

原创 Flink配log4j2日志输出

一. idea中配置1. resources文件夹添加log4j2.xml文件<?xml version="1.0" encoding="UTF-8"?><configuration monitorInterval="5"> <Properties> <property name="LOG_PATTERN" value="%date{HH:mm:ss.SSS} [%thread] %-5level %logger{36} - %msg%

2022-04-26 11:19:59 4855 1

原创 Docker部署Clickhouse

一. 拉取镜像# 21.8.15.7指定版本docker pull yandex/clickhouse-server:20.8.19二. 修改配置1. 启动临时容器,目的:拷贝容器内配置文件docker run -d --rm --name=temp yandex/clickhouse-server:20.8.19docker ps #查看是否启动2. 宿主机创建目录,用于存放配置文件、数据、日志sudo mkdir -p /usr/local/clickhouse/conf /usr

2022-04-24 10:41:50 2909

原创 Flink同时读取mysql与pgsql程序会卡住且没有日志

一. 问题如题,flink程序会一直卡在initialize阶段,且不会有任何日志二. 解决程序中读取mysql与pgsql时使用的方式是:DriverManager.getConnection(URL, USERNAME, PASSWORD);测试,如果只请求mysql,或者只请求pgsql就正常有数据,此时我就怀疑是否这个方法有问题把mysql请求换成使用德鲁伊获取连接dataSource = new DruidDataSource();dataSource.setDriverClas

2022-04-21 18:07:07 2927

原创 Flink CDC 中文乱码踩坑

一. 发现中文字段全部变成??? vim flink-conf.yaml#增加env.java.opts: "-Dfile.encoding=UTF-8"

2022-04-13 14:27:55 2776 1

原创 Clickhouse一键自动安装脚本

一. 脚本#!/bin/sh# 下载if [ ! -f "clickhousedeploydata/tar/clickhouse-client-20.8.12.2.tgz" ]; then wget -P clickhousedeploydata/tar/ https://mirrors.tuna.tsinghua.edu.cn/clickhouse/tgz/stable/clickhouse-client-20.8.12.2.tgz wget -P clickho

2022-03-28 18:10:27 643

原创 Clickhouse导入导出Python脚本

一. 导出注意1: 端口号不是8123,阿里云默认python的tcp端口号是3306,自建默认是9000注意1: 账号密码不要带有特殊符号,哪怕有使用转义依然会登录不上去,自建一个导入导出的专属账号吧from celery.utils.log import get_task_loggerimport subprocesslogger = get_task_logger(__name__)# 从clickhouse 导出数据到本地# databaseName 库名# tableName

2022-03-21 15:30:14 1168

原创 Clikhouse-踩坑记录之求环比

Clikhouse-踩坑记录之求环比需求:求订单环比问题1:后端ibatis框架不支持子查询动态筛选,所以需要在sql中就实现排序.问题2:使用date格式的天进行聚合计算式,group by day分组会默认按照day升序,此时使用neighbor函数就不会出现乱序求环比,如果group by week/month等字符串分组,默认排序就不是我们想要的,此时使用neighbor函数就会出现乱序,环比就不对了SELECT month

2021-09-29 17:06:24 556

原创 Clickhouse-Summingmergetree特性带了的一个小坑

这里写自定义目录标题Clickhouse-SummingmergetreeSummingmergetreeClickhouse-Summingmergetree大家好,本次分享下Clickhouse踩的一个坑。Summingmergetree背景:ck版本20.3,使用summingmergetree引擎做聚合操作,这个引擎有个特性如果所有可聚合字段值都为零,词条记录会被框架自动删除;开发过程中,会有同事拿这张表来计算日活(或者与日活作对比,有可能这个设备当天就发了一条消息,确实指标都为0);

2021-09-09 18:20:18 292

原创 logstash

踩坑记录1,out部分,如果需要json,需要使用json_line

2021-05-27 12:50:05 74

原创 Flink on yarn log/userlogs里面的日志会自动删除

我发现任务失败后,到处找不到这个目录原本存在的taskmanager.err .log .out相关的日志了,不知道跑到哪里去了.我的hadoop3.14,flink1.12.1,有知道的小伙伴吗,求解

2021-04-02 09:59:06 1161 3

原创 Flink踩坑之DEBUG日志配置与Sink到Mysql

Flink日志配置log4j,debug需要落盘的话,代码中配置没用,需要在flink/conf/log4j.properties进行修改代码中使用;Logger logger = LoggerFactory.getLogger(XXXXX.class);logger.debug("This message contains {} placeholders. {}", "origin", JSON.toJSONString(xxxx));自用如下:## Unless required b

2021-03-07 16:54:43 1812

原创 azkaban

azkaban概述1、azkaban是什么?azkaban是任务调度的工具2、azkaban使用步骤1、需要创建两个文件[.project文件和.flow文件]2、在.project文件中添加一行内容: azkaban-flow-version: 2.0.flow文件中配置job任务3、将两个文件打成.zip包4、上传azkaban web页面azkaban在两个文件中都是使用的yaml的语法yaml语法规范:1、大小写敏感2、通过缩进表示层次关系3、缩进只能空格,不能用tab4

2020-09-29 17:00:44 305

原创 Flume整理

1、Flume概述1、flume是什么? flume是海量日志采集、聚集、传输系统2、flume应用场景? 用于离线的日志采集3、flume基础架构 Agent: flume的任务进程 Source: 定义数据从哪里采集 Channel: 缓冲区[source采集数据之后会放入channel,sink从channel中拉取数据] flume自带两种channel: memory channel、file channel memory channel与file channel

2020-09-24 21:31:41 84

原创 hive之导入导出数据

一 导入数据注意 —— 使用本地模式运行MR : set hive.exec.mode.local.auto=true;1.方式一 :load data [local] inpath ‘数据的path’ [overwrite]into table 表名 [partition (partcol1=val1,…)];#[local] :如果加上该字段表示从本地导入数据,如果不加表示从hdfs上导入数据#[overwrite] :如果加上该字段那么会将原表中的数据覆盖掉,如果不加则将该内容追加到表中

2020-09-18 18:02:08 102

原创 hive之表管理

一 创建表:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name #[EXTERNAL] :创建一张外部表,如果不加创建的就是内部表(管理表)[(col_name data_type [COMMENT col_comment], ...)] #字段名 字段类型 #comment : 字段的描述信息[COMMENT table_comment] #comment : 表的描述信息[PARTITIONED BY (col_name data_

2020-09-18 17:53:44 163

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除