自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(46)
  • 收藏
  • 关注

原创 StreamingFileSink,HiveStreaming和Hive-JDBC的区别

前言现如今实时需求越来越急需,但是基于传统盈利模式的公司可能大多数数据还在基于hive分析.但是hive的查询慢和更新慢大家都知晓,最主要的pdate和delete还是支持的不友好,所以我基于实践为目的的做了这个flink sink tohive 的StreamingFileSink 和hiveStreaming api 以及hive-jdbc的方式做sink到hive的场景做了一些分析和调研,希望你能帮助你一、性能概要分析二、耗时分析,单位是ms...

2020-11-23 18:19:54 341

原创 elasticsearch 跨集群迁移好用方案之一

elasticsearch 跨集群 迁移数据 好用方案 之一

2023-02-01 15:21:24 870

原创 kafka-console-producer.sh

主要是归纳kafka-console-producer.sh 的命令参数中文解释

2022-08-08 15:30:08 1130

原创 kafka中元数据特性

在kafka2.x及之前的版本当中,一直都需要依赖于zookeeper作为协调服务,kafka集群在启动的时候,也会向zookeeper集群当中写入很多重要的元数据,我们可以一起来看一下在kafka2当中保留在zk当中的元数据有哪些可以看到在zk当中保存了很多kafka集群的元数据信息/admin : 主要保存kafka当中的核心的重要信息,包括类似于已经删除的topic就会保存在这个路径下面/brokers : 主要用于保存kafka集群当中的broker信息,以及没被删除的topic信

2022-04-05 22:11:30 1882

原创 clickhouse 常用的函数

1. 算术函数 2. 比较函数 3. 逻辑函数1. 算术函数函数 对应操作符 描述 plus(a, b) a + b 对两个数字求和。也可以对date/dateTime类型值与整型值(表示秒数)求和。 minus(a, b), a - b 支持date/dateTime类型值与整型值(表示秒数)相减。 multiply(a, b) a * b 数字乘积。 divide(a, b) a / b 计算数...

2022-03-17 11:59:53 1382

原创 clickhouse 字符串函数

1. 字符串搜索从字符串中查找子字符串的位置,默认以字节为单位和大小写敏感,使用衍生的*CaseInsensitive和*UTF8函数进行不区分大小写和UTF8编码的字符串搜索。在搜索时同时使用忽略大小写和使用UTF8编码的规则,则使用衍生的*CaseInsensitiveUTF8函数。位置索引从1开始。(1)、singe search函数 描述 示例 position(haystack, needle) locate(haystack, needle)..

2022-03-17 11:55:38 5963

原创 clickhouse 算术函数

1. 算术函数 2. 比较函数 3. 逻辑函数1. 算术函数函数 对应操作符 描述 plus(a, b) a + b 对两个数字求和。也可以对date/dateTime类型值与整型值(表示秒数)求和。 minus(a, b), a - b 支持date/dateTime类型值与整型值(表示秒数)相减。 multiply(a, b) a * b 数字乘积。 divide(a, b) a / b 计算数...

2022-03-17 11:53:23 625

原创 clickhouse 数据类型转换

1. 数值/日期类转换1.1 常规类型转换1.2 -OrZero系列1.3 -OrNull系列2. 字符串转换3. 通用的转换函数CAST(x, t)4. 时间相关转换1. 数值/日期类转换1.1 常规类型转换大类 细类 描述 toInt(8|16|32|64) toInt8(expr) 转换为有符号的整数,转换向零舍入(截断数字的小数位)。nan和inf未定义。 toInt16(expr) toInt32(expr) t.

2022-03-17 11:23:45 22792

原创 RabbitMQ VS Kafka

PPTMQ.pptx 比较内容 Kafka RabbitMQ 定位 设计定位 系统间的数据流管道,实时数据处理 用于实时的,对可靠性要求较高的消息传递上   例如:常规的消息系统、网站活 例如:订单,交易,充值,流计 性跟踪,监控数据 基础对比 成熟度 成熟:日志领域成熟 成熟 所属社区/公司 Apache Mozilla Public License 社区活跃度 高 ...

2022-01-26 13:49:19 1811

原创 Flink内存模型,

这个文稿我将后面优化,先上一个别人的版本,主要是这个版本太经典了,我会附上原文链接,后续我将补充最新版本的见解和相关原文参考Flink1.11内存模型与参数调整_提拉米苏的博客-CSDN博客Total Process Memory:flink总资源数 2048m,参数:taskmanager.memory.process.sizeJVM Metaspace:JVM元空间,参数:taskmanager.memory.jvm-metaspace.size,计算:默认值256m..

2021-09-16 16:47:54 233

原创 spark flink hadoop mr on python 实践

目录一.基本环境准备:python3.5+pipjava 1.8maven version >=3.3.0二.Pyspark Test1. pip install pyspark2.code(1)streaming3.执行脚本三.Flink Test1.构建python2.flink's 'stanalone ( 其他环境)3.pyflink.py4. 运行命令5. result:三.MapReduce Test1.code

2021-09-10 10:34:31 264

原创 Java 日期格式汇总

Date and Time Pattern Result "yyyy.MM.dd G 'at' HH:mm:ss z" 2001.07.04 AD at 12:08:56 PDT "EEE, MMM d, ''yy" Wed, Jul 4, '01 "h:mm a" 12:08 PM "hh 'o''clock' a, zzzz" ...

2021-08-11 11:00:29 326

原创 elasticsearch[type=index_not_found _exception reason=no such index .... doesn‘t match

elasticsearch[type=index_not_found _exception reason=no such index .... doesn't match将设置成可以自动创建PUT _cluster/settings{ "persistent": { "action.auto_create_index": "true" }}官网参考https://www.elastic.co/guide/en/elasticsearch/reference/c...

2021-07-28 16:42:03 2327

原创 promethous SQL 笔记

背景:最近经常用grafna 配置各种指标,但是感觉界面太难用,用啥啥都不会,我也就是临时报了一下笔记,各处做了一些抄袭, 最后在这里做个总结, 文章最后会标出原文出处, 欢迎大家点击原文promethous sql语法:基础逻辑=完全相等!=: 不相等=~: 正则表达式匹配!~: 正则表达式不匹配时序选择器http_requests_total{job="prometheus", group="canary"} job 为 prometheus并且 group 为.

2021-07-23 19:59:06 476

原创 Flink CDC-2.0 未来可期

概念主要面向 数据库的变更,是一种用于捕获数据库中数据变更的技术目前cdc 组件应用场景数据同步数据分发数据采集目前的痛点Flink CDC 底层封装了 Debezium, Debezium 同步一张表分为两个阶段:全量阶段:查询当前表中所有记录增量阶段:从 binlog 消费变更数据无锁:是否能保证数据的一致性flink cdc2.0 想要做到什么...

2021-07-18 22:16:44 780 2

原创 dorisDB比较分析

一幅图证明dorisDB到底是啥,动行的人肯定懂我说的是啥.~不知道你信不信,看着好牛的样子....应用场景~是一个体系库.OLAPAD hocData Reporting数据分类数据仓库的业务架构那么,dorisDB在这些环境到底能做什么呢?架构是什么doris的整体架构向量化引擎的性能优势数据弹性伸缩DorisDB vs ClickhouseImpala+Kudu和DorisDB的对...

2021-06-16 14:26:08 2398

原创 clickhouse 架构笔记二(应用场景)

面试常规考点分组取几函数的topicK基础准备:CREATE TABLE nx_topK_test ( a Int32,b Int32,c Int32) ENGINE = Memory;insert into nx_topK_test ( a,b,c) values (1,2,5),(1,2,4),(1,3,8),(1,3,2),(1,4,6),(2,3,3),(2,3,7),(2,3,8),(2,4,9),(2,5,6),(3,3,4),(3,3,7),(3,3,5),(3,4,9),(

2021-06-10 21:09:41 945

原创 Clinkhouse 架构笔记一

clickhouse 设计思路优点优点我就不说了,我相信能点开链接的人,一定是基于某种原因认识了clickhouse,所以优点根据自己的场景来体会缺点clickhouse的表的引擎分类https://clickhouse.tech/docs/zh/engines/table-engines/库引擎表 引擎mergeTree细节阐述:工作原理数据存储原理clickhouse 索引原理一级索引二级索引:...

2021-06-09 20:00:30 401

转载 多线程面试集合

1、并发编程三要素?1)原子性原子性指的是一个或者多个操作,要么全部执行并且在执行的过程中不被其他操作打断,要么就全部都不执行。2)可见性可见性指多个线程操作一个共享变量时,其中一个线程对变量进行修改后,其他线程可以立即看到修改的结果。3)有序性有序性,即程序的执行顺序按照代码的先后顺序来执行。2、实现可见性的方法有哪些?synchronized或者Lock:保证同一个时刻只有一个线程获取锁执行代码,锁释放之前把最新的值刷新到主内存,实现可见性。3、多线程的价值?1)

2021-05-16 17:44:51 126

原创 kafka源码浅析

概要说到 kafka 源码理解可能大家听到的kafka对多的是kafka怎么顺序追加?怎么0拷贝?怎么支持高并发?怎么线程安全?....但是这些到底为什么呢 ?其实看看kafka的源码就非常的清晰了优秀的点非常的多,我这里重点讲我认为设计的非常优秀美观的地方.核心优势kafka的优秀的点.分段加锁double check读写分离内存池的设计高性能的设计跳表设计稀疏索引设计零拷贝..用 kafka produc...

2021-04-19 19:36:47 375

原创 kafka 迁移最佳实践

kafka 迁移kafka的迁移分为一个集群内数据迁移或者是不同集群内数据迁移,一. 同一个集群内broker 迁移原理相当于在一个集群内,将数据进行了快速copy的机制.不过是非常快的.应用场景broker 迁移 主要使用的场景是broker 上线,下线,或者扩容等.基于同一套zookeeper的操作.实践step1将需要新添加的broker 列表一并添加到kafka的集群中,这里就省略了, 怎么让kafka 集群添加新节点相对于比较简单,各种cdh管理工具都能做...

2021-03-10 19:03:11 2390

原创 Flink SQL1.12 FlieSystem

四.Filesystem4.1 flink sql4.1.1 kafka的数据写入往hive的外表分区CREATE TABLE kafka_table ( user_id STRING, order_amount DOUBLE, ts BIGINT, `proctime` AS PROCTIME(), -- 通过计算列产生一个处理时间列 `eventTime` AS TO_TIMESTAMP(FROM_UNIXTIME(ts, 'yyyy-MM-d.

2021-02-15 22:30:00 742

原创 Flink SQL1.12 三 Hive 内表和外表读写

目录3.1 hive3.1.1 flink sql3.1.2 数据源准备3.1.3sql-client3.1.4 代码3.1.5 采坑3.1.6 配置 (点击参考)3.1.7 hive的demo(点击参考)******这里解释几个对于hive 数据访问比较关键的点.***HiveCatalog 的作用***hive的兼容表和非兼容表 is_generic=true***Dialect的作用SET table.sql-dialect=hive;...

2021-02-15 22:08:52 2297

原创 Flink SQL1.12 二 Mysql Source

目录二. mysql 数据源2.1 mysql 全量缓存的方式2.1.1 flink sql2.1.2 数据准备2.1.3 sql-client2.1.4 代码2.1.5 采坑2.1.6 强调配置2.2 flink- cdc-mysql 增量同步更新的方式2.2.1flink sql2.2.2 准备数据2.2.3 sql client2.2.5 采坑2.2.6 配置二. mysql 数据源2.1 mysql 全量缓存的方式2.1...

2021-02-15 21:32:04 1335

原创 Flink SQL 1.12 深度实践 一 Kafka source (json+debezium json+复杂json)

# kafka source (simple json+debeizum json+复杂json)近期主要是我花时间一步步采坑实践出来的各种细节,发现官网很多文字和配置都误差. 所以本人本着真实可靠的实践操作来给予大家的文案.希望可以帮到你 . 做实践之前,必须准备flink 环境 略 java 环境 略 sql-client 开启 略 docker 环境. 以备各个组件的快速运行. 一. kaf...

2021-02-15 16:06:01 6969

原创 zookeeper 调优参数

前言zookeeper是是分布式大数据平台的枢纽,没有了它,很多依赖它的分布式直接是无可奈何,它就像是一个催化剂一样,默默无闻的辅助着各类工具的稳定和运行. (kafka,habse ,clickhouse ,hdfs…).我这里简单描述 一下,zookeeper常用参数的细节优化一.配置1.配置snapshot文件清理策略autopurge.purgeInterval=1autopurge.purgeInterval:开启清理事务日志和快照文件的功能,单位是小时。默认是0,表示不开启自动清理功能

2021-01-22 15:38:41 3953

原创 shell 快速实践多服务filebeat部署

概要 作为一个非资深运维和非资深liunx的脚本的人员,你可能只负责开发,或者做大数据相关运算, 不得不接触服务器做些工具和组件的小测试,但是遇到hdfs集群,或者yarn集群有20台+ 的,怎么办? 求教别人吗? 会不会遭人家嫌弃?还是自己一台台的敲命令,或者用shell工具的多窗口模式. 进行批量执行,这些都太~ 耗时耗力.这里举例说一个关于filebeat的多服务快速部署,此文档适合刚入门liunx的开发人员.流程1.找到一台服务,前提是它对其他机器都是免密的,一般hdfs或者y

2020-12-17 18:31:49 538

原创 elasticsearch线上调优[ Data too large]

项目场景:最近es的线上经常出现一个内存的异常的问题,我解决了各种的途径都无效.问题描述:[[parent] Data too large, data for [<transport_request>] would be{ml.machine_memory=134888816640, xpack.installed=true, ml.max_open_jobs=20}]; nested: RemoteTransportException[[localhost][10.84.10.192:

2020-12-14 18:05:17 2901

原创 Docker 快速实操笔记

概要这个文章主要讲已经理解docker的前提下,快速利用docker安装各种组件的全集,所有的命令都已经测试过,作为新如果公司的大数据工程师是非常快速有效的docker 安装安装docker sudo yum install docker-ce docker-ce-cli containerd.io安装docker composecurl -L "https://github.com/docker/compose/releases/download/1.23.2/docker-compose-

2020-12-10 18:39:59 144 1

原创 Clickhouse分布式查询和写入优化

# clickhouse 查询优化分布式子查询1.普通的IN/JOIN:查询发送到远程的server,在每个远程的server上运行IN子查询或JOIN子句。2.GLOBALIN/GLOBALJOIN:首先为GLOBALIN/GLOBALJOIN运行所有子查询,将结果收集在临时表中。然后将临时表发送到每个远端server,并在其中使用此临时数据运行查询。普通操作 in SELECT uniq(UserID) FROM distributed_table WHERE UserID IN ( SE.

2020-12-10 17:59:36 3868 1

原创 Kafka Stream API

Kafka Stream 是什么?大家都以为kafka只是一个消息队列,具有分布式,高并发,低延迟或者快速响应等多种特定,但是kafka官方却给自己定义自己一个开源的分布式事件流平台.那么啥叫流平台? 就是自己可以做流的计算清洗和简单的处理,多的我不想多说,咋们直接上代码吧public class StreamSample { private static final String INPUT_TOPIC="jiangzh-stream-in"; private static f.

2020-12-08 17:44:26 314

原创 Kafka 安全机制

Kafka 安全机制kafka的安全机制是一个保护kafka的数据不对外暴露的一种策略,相当于隐藏了数据本身的接口,客户端消费数据的时候必须走安全机制才能正常有效的访问到数据本身,一般相对数据安全性要求较高或者订单,用户私密的信息的数据,建议开启,开启了以后,将会影响kafka的性能 20%左右.所以开启的时候慎重step1:服务端生成秘钥.首先得找到一个存放秘钥的地址,一般要放在server端和kafka的data一起都可以,过程需要你的用户名和密码,以及城市国家,公司等一些信息创建密钥仓库,用

2020-12-08 17:36:01 1270

原创 Kafka producer的使用案例.(同步发送/异步发送)

概要kafka的的producer的发送分为同步发送,异步发送,异步发送回调函数.其中一般我们也会吧同步发送称为异步发送阻塞.一、异步发送 public static void producerSend(){ Properties properties = new Properties(); properties.put(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG,"localhost:9092"); prop.

2020-12-04 17:23:08 1405

原创 Clickhouse 字典表使用场景

一.字典创建和查询1.创建表和数据:drop table t_region;create table t_region(region_id UInt64, parent_region UInt64, region_name String) ENGINE=TinyLog;insert into t_region values(1, 0, 'jiangsu'),(2, 1, 'suzhou'),(3, 2, 'huqiu'),(4, 0, 'anhui'),(5, 4, 'hefei');创建字

2020-12-03 19:29:52 4260 3

原创 Clickhouse 简单SQL优化以及特殊数据类型使用场景

一. SQL 查询上的优化点1. 案例1利用好引擎表可以 PREWHER的优势select big.id, big.time, small.code, small.valuefrom smalltable small INNER JOIN bigtable big on small.id=big.idwhere big.time>‘2020-05-23’ and small.code in(‘a’,‘b’,‘c’);smalltable为TinyLog引擎表bigtable为MergeT

2020-12-03 19:14:01 984

原创 Clickhouse 特殊函数--with函数

定义常量表达式变量WITH '2019-08-01 15:23:00' AS timestampSELECT number, timestampFROM system.numbersLIMIT 2┌─number─┬─timestamp───────────┐│ 0 │ 2019-08-01 15:23:00 ││ 1 │ 2019-08-01 15:23:00 │└────────┴─────────────────────┘函数表达式WIT

2020-12-01 19:50:51 5263

原创 ClickHouse特殊函数-SQL聚合操作

clickhouse 很多特殊的函数1. count计算行数或非NULL的行数。ClickHouse支持以下计数语法:COUNT(expr)COUNT(DISTINCT expr)COUNT()COUNT(*).使用COUNT需要注意如下两点:调用不带参数的函数(COUNT() 和COUNT(*))将返回所有的行。如果传递了表达式参数,只有表达式结果为非NULL的行被计数。COUNT函数返回结果的数据类型为UInt64。示例:DROP TABLE t_count_test;CR.

2020-12-01 19:45:40 12186 3

原创 ClickHous DDL

ClickHous DDL以及函数使用创建本地复制表:CREATE TABLE table_local on cluster mycluster(EventDate DateTime,CounterID UInt32,UserID UInt32) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{layer}-{shard}/table_local', '{replica}')PARTITION BY toYYYYMM(EventDate)

2020-12-01 19:35:42 131

原创 Clickhouse 和其他端的连接(kafka,mysql,hdfs)

Clickhouse 和其他端的连接(kafka,mysql,hdfs)mysql在MySQL创建表和插入数据DROP TABLE test.test ;create table test.test ( id INT NOT NULL AUTO_INCREMENT, cnt INT, PRIMARY KEY (id));insert into test.test (id, cnt) VALUES (1,2);在ClickHouse中创建MySQL引擎的表DROP T

2020-11-27 18:14:17 858

原创 ClickHouse 之二 其他引擎(Null,File,Log,mergetree,TTL)

ClickHouse 其他系列引擎分析TTL(1)、创建带TTL的表:DROP TABLE example_table;CREATE TABLE example_table ( d DateTime, a Int TTL d + INTERVAL 1 MINUTE, b String TTL d + INTERVAL 1 MINUTE, c String)ENGINE = MergeTreeORDER BY d;(2)、插入数据:insert into

2020-11-27 17:57:32 435

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除