Lara1111-CSDN博客

原创 StreamingFileSink,HiveStreaming和Hive-JDBC的区别

前言现如今实时需求越来越急需,但是基于传统盈利模式的公司可能大多数数据还在基于hive分析.但是hive的查询慢和更新慢大家都知晓,最主要的pdate和delete还是支持的不友好,所以我基于实践为目的的做了这个flink sink tohive 的StreamingFileSink 和hiveStreaming api 以及hive-jdbc的方式做sink到hive的场景做了一些分析和调研,希望你能帮助你一、性能概要分析二、耗时分析,单位是ms...

2020-11-23 18:19:54 390

原创 elasticsearch 跨集群迁移好用方案之一

elasticsearch 跨集群迁移数据好用方案之一

2023-02-01 15:21:24 966

原创 kafka-console-producer.sh

主要是归纳kafka-console-producer.sh 的命令参数中文解释

2022-08-08 15:30:08 1234

原创 kafka中元数据特性

在kafka2.x及之前的版本当中，一直都需要依赖于zookeeper作为协调服务，kafka集群在启动的时候，也会向zookeeper集群当中写入很多重要的元数据，我们可以一起来看一下在kafka2当中保留在zk当中的元数据有哪些可以看到在zk当中保存了很多kafka集群的元数据信息/admin ：主要保存kafka当中的核心的重要信息，包括类似于已经删除的topic就会保存在这个路径下面/brokers ：主要用于保存kafka集群当中的broker信息，以及没被删除的topic信

2022-04-05 22:11:30 1961

原创 clickhouse 常用的函数

1. 算术函数 2. 比较函数 3. 逻辑函数1. 算术函数函数对应操作符描述 plus(a, b) a + b 对两个数字求和。也可以对date/dateTime类型值与整型值(表示秒数)求和。 minus(a, b), a - b 支持date/dateTime类型值与整型值(表示秒数)相减。 multiply(a, b) a * b 数字乘积。 divide(a, b) a / b 计算数...

2022-03-17 11:59:53 1461

原创 clickhouse 字符串函数

1. 字符串搜索从字符串中查找子字符串的位置，默认以字节为单位和大小写敏感，使用衍生的*CaseInsensitive和*UTF8函数进行不区分大小写和UTF8编码的字符串搜索。在搜索时同时使用忽略大小写和使用UTF8编码的规则，则使用衍生的*CaseInsensitiveUTF8函数。位置索引从1开始。（1）、singe search函数描述示例 position(haystack, needle) locate(haystack, needle)..

2022-03-17 11:55:38 6464

原创 clickhouse 算术函数

1. 算术函数 2. 比较函数 3. 逻辑函数1. 算术函数函数对应操作符描述 plus(a, b) a + b 对两个数字求和。也可以对date/dateTime类型值与整型值(表示秒数)求和。 minus(a, b), a - b 支持date/dateTime类型值与整型值(表示秒数)相减。 multiply(a, b) a * b 数字乘积。 divide(a, b) a / b 计算数...

2022-03-17 11:53:23 716

原创 clickhouse 数据类型转换

1. 数值/日期类转换1.1 常规类型转换1.2 -OrZero系列1.3 -OrNull系列2. 字符串转换3. 通用的转换函数CAST(x, t)4. 时间相关转换1. 数值/日期类转换1.1 常规类型转换大类细类描述 toInt(8|16|32|64) toInt8(expr) 转换为有符号的整数，转换向零舍入（截断数字的小数位）。nan和inf未定义。 toInt16(expr) toInt32(expr) t.

2022-03-17 11:23:45 24331

原创 RabbitMQ VS Kafka

PPTMQ.pptx 比较内容 Kafka RabbitMQ 定位设计定位系统间的数据流管道，实时数据处理用于实时的，对可靠性要求较高的消息传递上　例如：常规的消息系统、网站活例如：订单，交易，充值，流计性跟踪，监控数据基础对比成熟度成熟:日志领域成熟成熟所属社区／公司 Apache Mozilla Public License 社区活跃度高 ...

2022-01-26 13:49:19 1834

原创 Flink内存模型,

这个文稿我将后面优化,先上一个别人的版本,主要是这个版本太经典了,我会附上原文链接,后续我将补充最新版本的见解和相关原文参考Flink1.11内存模型与参数调整_提拉米苏的博客-CSDN博客Total Process Memory：flink总资源数 2048m，参数：taskmanager.memory.process.sizeJVM Metaspace：JVM元空间，参数：taskmanager.memory.jvm-metaspace.size，计算：默认值256m..

2021-09-16 16:47:54 286

原创 spark flink hadoop mr on python 实践

目录一.基本环境准备:python3.5+pipjava 1.8maven version >=3.3.0二.Pyspark Test1. pip install pyspark2.code(1)streaming3.执行脚本三.Flink Test1.构建python2.flink's 'stanalone ( 其他环境)3.pyflink.py4. 运行命令5. result:三.MapReduce Test1.code

2021-09-10 10:34:31 295

原创 Java 日期格式汇总

Date and Time Pattern Result "yyyy.MM.dd G 'at' HH:mm:ss z" 2001.07.04 AD at 12:08:56 PDT "EEE, MMM d, ''yy" Wed, Jul 4, '01 "h:mm a" 12:08 PM "hh 'o''clock' a, zzzz" ...

2021-08-11 11:00:29 402

原创 elasticsearch[type=index_not_found _exception reason=no such index .... doesn‘t match

elasticsearch[type=index_not_found _exception reason=no such index .... doesn't match将设置成可以自动创建PUT _cluster/settings{ "persistent": { "action.auto_create_index": "true" }}官网参考https://www.elastic.co/guide/en/elasticsearch/reference/c...

2021-07-28 16:42:03 2411

原创 promethous SQL 笔记

背景:最近经常用grafna 配置各种指标,但是感觉界面太难用,用啥啥都不会,我也就是临时报了一下笔记,各处做了一些抄袭, 最后在这里做个总结, 文章最后会标出原文出处, 欢迎大家点击原文promethous sql语法:基础逻辑=完全相等!=: 不相等=~: 正则表达式匹配!~: 正则表达式不匹配时序选择器http_requests_total{job="prometheus", group="canary"} job 为 prometheus并且 group 为.

2021-07-23 19:59:06 543

原创 Flink CDC-2.0 未来可期

概念主要面向数据库的变更，是一种用于捕获数据库中数据变更的技术目前cdc 组件应用场景数据同步数据分发数据采集目前的痛点Flink CDC 底层封装了 Debezium， Debezium 同步一张表分为两个阶段:全量阶段:查询当前表中所有记录增量阶段:从 binlog 消费变更数据无锁:是否能保证数据的一致性flink cdc2.0 想要做到什么...

2021-07-18 22:16:44 837 2

原创 dorisDB比较分析

一幅图证明dorisDB到底是啥,动行的人肯定懂我说的是啥.~不知道你信不信,看着好牛的样子....应用场景~是一个体系库.OLAPAD hocData Reporting数据分类数据仓库的业务架构那么,dorisDB在这些环境到底能做什么呢?架构是什么doris的整体架构向量化引擎的性能优势数据弹性伸缩DorisDB vs ClickhouseImpala+Kudu和DorisDB的对...

2021-06-16 14:26:08 2469

原创 clickhouse 架构笔记二(应用场景)

面试常规考点分组取几函数的topicK基础准备:CREATE TABLE nx_topK_test ( a Int32,b Int32,c Int32) ENGINE = Memory;insert into nx_topK_test ( a,b,c) values (1,2,5),(1,2,4),(1,3,8),(1,3,2),(1,4,6),(2,3,3),(2,3,7),(2,3,8),(2,4,9),(2,5,6),(3,3,4),(3,3,7),(3,3,5),(3,4,9),(

2021-06-10 21:09:41 1015

原创 Clinkhouse 架构笔记一

clickhouse 设计思路优点优点我就不说了,我相信能点开链接的人,一定是基于某种原因认识了clickhouse,所以优点根据自己的场景来体会缺点clickhouse的表的引擎分类https://clickhouse.tech/docs/zh/engines/table-engines/库引擎表引擎mergeTree细节阐述:工作原理数据存储原理clickhouse 索引原理一级索引二级索引:...

2021-06-09 20:00:30 458

转载多线程面试集合

1、并发编程三要素？1）原子性原子性指的是一个或者多个操作，要么全部执行并且在执行的过程中不被其他操作打断，要么就全部都不执行。2）可见性可见性指多个线程操作一个共享变量时，其中一个线程对变量进行修改后，其他线程可以立即看到修改的结果。3）有序性有序性，即程序的执行顺序按照代码的先后顺序来执行。2、实现可见性的方法有哪些？synchronized或者Lock：保证同一个时刻只有一个线程获取锁执行代码，锁释放之前把最新的值刷新到主内存，实现可见性。3、多线程的价值？1）

2021-05-16 17:44:51 143

原创 kafka源码浅析

概要说到 kafka 源码理解可能大家听到的kafka对多的是kafka怎么顺序追加?怎么0拷贝?怎么支持高并发?怎么线程安全?....但是这些到底为什么呢 ?其实看看kafka的源码就非常的清晰了优秀的点非常的多,我这里重点讲我认为设计的非常优秀美观的地方.核心优势kafka的优秀的点.分段加锁double check读写分离内存池的设计高性能的设计跳表设计稀疏索引设计零拷贝..用 kafka produc...

2021-04-19 19:36:47 421

原创 kafka 迁移最佳实践

kafka 迁移kafka的迁移分为一个集群内数据迁移或者是不同集群内数据迁移,一. 同一个集群内broker 迁移原理相当于在一个集群内,将数据进行了快速copy的机制.不过是非常快的.应用场景broker 迁移主要使用的场景是broker 上线,下线,或者扩容等.基于同一套zookeeper的操作.实践step1将需要新添加的broker 列表一并添加到kafka的集群中,这里就省略了, 怎么让kafka 集群添加新节点相对于比较简单,各种cdh管理工具都能做...

2021-03-10 19:03:11 2566

原创 Flink SQL1.12 FlieSystem

四.Filesystem4.1 flink sql4.1.1 kafka的数据写入往hive的外表分区CREATE TABLE kafka_table ( user_id STRING, order_amount DOUBLE, ts BIGINT, `proctime` AS PROCTIME(), -- 通过计算列产生一个处理时间列 `eventTime` AS TO_TIMESTAMP(FROM_UNIXTIME(ts, 'yyyy-MM-d.

2021-02-15 22:30:00 822

原创 Flink SQL1.12 三 Hive 内表和外表读写

目录3.1 hive3.1.1 flink sql3.1.2 数据源准备3.1.3sql-client3.1.4 代码3.1.5 采坑3.1.6 配置 (点击参考)3.1.7 hive的demo(点击参考)******这里解释几个对于hive 数据访问比较关键的点.***HiveCatalog 的作用***hive的兼容表和非兼容表 is_generic=true***Dialect的作用SET table.sql-dialect=hive;...

2021-02-15 22:08:52 2457

原创 Flink SQL1.12 二 Mysql Source

目录二. mysql 数据源2.1 mysql 全量缓存的方式2.1.1 flink sql2.1.2 数据准备2.1.3 sql-client2.1.4 代码2.1.5 采坑2.1.6 强调配置2.2 flink- cdc-mysql 增量同步更新的方式2.2.1flink sql2.2.2 准备数据2.2.3 sql client2.2.5 采坑2.2.6 配置二. mysql 数据源2.1 mysql 全量缓存的方式2.1...

2021-02-15 21:32:04 1413

原创 Flink SQL 1.12 深度实践一 Kafka source (json+debezium json+复杂json)

# kafka source (simple json+debeizum json+复杂json)近期主要是我花时间一步步采坑实践出来的各种细节,发现官网很多文字和配置都误差. 所以本人本着真实可靠的实践操作来给予大家的文案.希望可以帮到你 . 做实践之前,必须准备flink 环境略 java 环境略 sql-client 开启略 docker 环境. 以备各个组件的快速运行. 一. kaf...

2021-02-15 16:06:01 7305

原创 zookeeper 调优参数

前言zookeeper是是分布式大数据平台的枢纽,没有了它,很多依赖它的分布式直接是无可奈何,它就像是一个催化剂一样,默默无闻的辅助着各类工具的稳定和运行. (kafka,habse ,clickhouse ,hdfs…).我这里简单描述一下,zookeeper常用参数的细节优化一.配置1.配置snapshot文件清理策略autopurge.purgeInterval=1autopurge.purgeInterval：开启清理事务日志和快照文件的功能，单位是小时。默认是0，表示不开启自动清理功能

2021-01-22 15:38:41 4212

原创 shell 快速实践多服务filebeat部署

概要作为一个非资深运维和非资深liunx的脚本的人员,你可能只负责开发,或者做大数据相关运算, 不得不接触服务器做些工具和组件的小测试,但是遇到hdfs集群,或者yarn集群有20台+ 的,怎么办? 求教别人吗? 会不会遭人家嫌弃?还是自己一台台的敲命令,或者用shell工具的多窗口模式. 进行批量执行,这些都太~ 耗时耗力.这里举例说一个关于filebeat的多服务快速部署,此文档适合刚入门liunx的开发人员.流程1.找到一台服务,前提是它对其他机器都是免密的,一般hdfs或者y

2020-12-17 18:31:49 584

原创 elasticsearch线上调优[ Data too large]

项目场景：最近es的线上经常出现一个内存的异常的问题,我解决了各种的途径都无效.问题描述：[[parent] Data too large, data for [<transport_request>] would be{ml.machine_memory=134888816640, xpack.installed=true, ml.max_open_jobs=20}]; nested: RemoteTransportException[[localhost][10.84.10.192:

2020-12-14 18:05:17 3052

原创 Docker 快速实操笔记

概要这个文章主要讲已经理解docker的前提下,快速利用docker安装各种组件的全集,所有的命令都已经测试过,作为新如果公司的大数据工程师是非常快速有效的docker 安装安装docker sudo yum install docker-ce docker-ce-cli containerd.io安装docker composecurl -L "https://github.com/docker/compose/releases/download/1.23.2/docker-compose-

2020-12-10 18:39:59 169 1

原创 Clickhouse分布式查询和写入优化

# clickhouse 查询优化分布式子查询1.普通的IN/JOIN：查询发送到远程的server，在每个远程的server上运行IN子查询或JOIN子句。2.GLOBALIN/GLOBALJOIN：首先为GLOBALIN/GLOBALJOIN运行所有子查询，将结果收集在临时表中。然后将临时表发送到每个远端server，并在其中使用此临时数据运行查询。普通操作 in SELECT uniq(UserID) FROM distributed_table WHERE UserID IN ( SE.

2020-12-10 17:59:36 4083 1

原创 Kafka Stream API

Kafka Stream 是什么?大家都以为kafka只是一个消息队列,具有分布式,高并发,低延迟或者快速响应等多种特定,但是kafka官方却给自己定义自己一个开源的分布式事件流平台.那么啥叫流平台? 就是自己可以做流的计算清洗和简单的处理,多的我不想多说,咋们直接上代码吧public class StreamSample { private static final String INPUT_TOPIC="jiangzh-stream-in"; private static f.

2020-12-08 17:44:26 353

原创 Kafka 安全机制

Kafka 安全机制kafka的安全机制是一个保护kafka的数据不对外暴露的一种策略,相当于隐藏了数据本身的接口,客户端消费数据的时候必须走安全机制才能正常有效的访问到数据本身,一般相对数据安全性要求较高或者订单,用户私密的信息的数据,建议开启,开启了以后,将会影响kafka的性能 20%左右.所以开启的时候慎重step1:服务端生成秘钥.首先得找到一个存放秘钥的地址,一般要放在server端和kafka的data一起都可以,过程需要你的用户名和密码,以及城市国家,公司等一些信息创建密钥仓库，用

2020-12-08 17:36:01 1362

空空如也

空空如也