2020年12月_稳哥的哥

原创 oracle、sqlServer、postgreSQL、greenplum递归查询、递归视图

sqlServer、postgreSQL、greenplum递归查询参考博客：https://blog.csdn.net/wenzhihui_2010/article/details/43935019递归查询通常可用作将有层级关系的数据进行扁平化展示,如组织机构，包含关系等1 测试数据创建--创建表create table tb(id varchar(3) , pid varchar(3) , name varchar(10)); --插入测试数据insert into tb value

2020-12-30 11:17:37 662

原创 GreenPlum（postgreSQL）自定义查询函数

GreenPlum（postgreSQL）自定义查询函数具体可以参考postgreSQL的官网：自定义函数and others1 基本语法如下CREATE [OR REPLACE] FUNCTION name ( [ [argmode] [argname] argtype [ { DEFAULT | = } defexpr ] [, ...] ] ) [ RETURNS { [ SETOF ] rettype | TABLE ([{ argname arg

2020-12-29 17:19:38 2709 1

原创 Kafka-之消息传输保障（传输语意、幂等、事务以及代码示例）

Kafka-之消息传输保障（传输语意、幂等、事务以及代码示例）1 消息传输语义(保障)不管是Kafka还是其它的消息队列，对消息传输的保障都是基于不同层级的语义At most once至多一次，消息很可能会丢失，但是绝不会出现重复传输At least once至少一次，消息不可能丢失，但是可能会出现重复传输exactly once精准一次，消息不可能丢失，也不可能重复传输对于生产者而言，一旦消息被成功提交到kafka的日志文件，由于多副本机制的存在，那么这条消息就不

2020-12-29 11:43:58 1119

原创 kafka-之分段日志文件索引（偏移量索引、时间戳索引）

kafka-之分段日志文件索引0 前言kafka的日志文件索引是用来快速检索日志的，在kafka中日志索引分为2种类,kafka中索引以稀疏索引的方式构建索引，它不保证每个消息在索引文件中都存在索引，每当写入一定数量log.index.interval.bytes default(4KB = 4096)的时候，偏移量索引以及时间戳索引各自创建一个对应的索引项，我们可以通过该参数调整索引的密度。通过MappedByteBuffer将索引文件映射到内存中。偏移量索引baseoffset.index文

2020-12-28 16:18:55 2067 3

原创 Kafka-之数据日志存储（格式变化与压缩）

Kafka-之数据日志存储1 kafka的日志布局kafka的数据存储是基于文件系统的，kafka的数据以日志的形式存储在磁盘上，具体的日志布局可以看下图。很明显，kafka以topic来进行数据划分，我们可以通过在server.properties文件指定log.dirs来指定数据日志存储#指定日志存储路径log.dirs=/tmp/kafka-logs1,tmp/kafka-logs2,....虽说kafka按照topic进行数据划分，但是在物理存储上还是按照topic-partitio

2020-12-28 10:43:55 1955

原创 Kafka-之控制器（Controller选举、leader选举）

Kafka-之控制器（控制器选举，leader选举）1 控制器是什么，如何选举kafka控制器管理着整个集群中分区以及副本的状态，控制器的选举需要依赖于Zookeeper，在kafka集群启动的时候，会在ZK中创建一个临时节点(EPHEMERAL)/controller，在每个Broker启动的时候，都会先去访问ZK中的这个节点，如果不存在Broker就会则创建这个节点，先到先得称为Controller，其它Broker当访问这个节点的时候，如果读取到brokerid不等于-1，那么说明Control

2020-12-18 16:03:21 2453 4

原创 Kafka-之分区数确定（生产者、消费者性能测试）

Kafka-之分区数确定（生产者、消费者性能测试）kafka-topic的分区数的确定到目前为止没有权威的答案，但是可以肯定一点，kafka的分区数与性能表现有着直接的关系。那么这篇我就和读者大大们谈谈kafka的生产者和消费者的性能测试。kafka-producer-perf-test.sh用于测试生产者的性能kafka-consumer-perf-test.sh用于测试消费者性能1 kafka-producer-pref-test.sh测试简单的测试脚本执行方式如下：bi

2020-12-16 18:04:17 1569

原创 Kafka-之分区管理(优先副本选举、分区重分配、副本复制限流，修改副本因子)

Kafka-之分区管理(优先副本选举、分区重分配、副本复制限流，修改副本因子)kafka内部的分区管理可以从几个方面去介绍。1、优先副本的选举2、分区重新分配3、复制限流4、修改副本因子1 优先副本选举优先副本选举主要是为了让所有的分区尽可能分布在不同的broker上的一种机制，那么什么是优先副本？优先副本是AR种的第一个副本，这个副本通常为leader，假如这个副本不是leader，那么这个副本就是非优先副本。假如我们通过以下方式创建一个topic_a,分区数为3，副本因子也为3./ka

2020-12-16 15:13:06 1159

原创 kafka-之Consumer客户端开发(包括参数配置及offset提交等)

kafka-之Consumer客户端开发(包括参数配置及offset提交等)kafka的ConsumerAPI与Producer ClientAPI一样也经历了2个大的版本，0.9x之前使用scala编写的成为Old Consumer API，0.9x版本以来推出的Java编写的客户端API被称为New Consumer API。这里我们只讨论新的Java API。一个正常的消费者逻辑包括以下逻辑：创建一个消费者实例，并配置相关参数订阅主题拉取消息并消费提交offset消费偏移量关闭消费者实

2020-12-15 16:28:38 560

原创 Kafka-之Consumer客户端与分区分配策略

Kafka-之Consumer客户端与分区分配策略与KafkaProducer向对应的是KafkaConsumer，用来消费kafka topic中的消息，但是于生产者而言，消费者这里有一个消费者组的概念,在消费的时候通过group.id指定。整个Consumer的客户端架构图如下：每个消费者组可以同时消费相同的topic分区数据，但是互不影响，但是一个分区下的数据在同一个消费者组中只能被一个消费者消费；下面就讲讲kafka消费者的分区分配策略。1 分区分配策略kafka消费者的分区分配策略通过

2020-12-10 17:08:37 866

原创 Kafka-之生产者（kafkaProducer）客户端常用参数释义

Kafka-之生产者客户端常用参数释义kafka生产者可以通过一些的参数来提升消息发送的频率以及效率，防止阻塞或者连接kafka集群失败。以下是常用的参数解析buffer.memory该参数为RecordAccumulator缓冲区的大小，该大小可以让Sender线程可以向kafka集群批量发送数据，从而减少网络传输的资源消耗，提升性能；默认 buffer.memory=33554432B（32MB）max.block.ms该参数为kafkaProducer.send()方法的最大

2020-12-07 10:38:57 502

原创 Kafka-之术语（名词解释：HW、LEO、ISR、LEADER、FOLLOWER......）

Kafka-之术语（名词解释）我觉得吧，有些小伙伴其实对Kafka只有一个笼统的了解，对kafka相关的名词解释呢也是一知半解。那么这边博客就对kafka相关的名词作出比较完整的解释吧！～，以下是需要解释的名词Producerkafka生产者，Kafka集群的数据都是生产者发送上报的；Broker每个Broker算是一个Kafka的集群节点；Consumer每个Kafka的数据都会被1个或者多个Consumer线程所消费；kafka一个分区的数据只能同时被一个Consu

2020-12-04 17:35:38 798 3

原创 Kafka-之整体架构及生产者架构

Kafka-之整体架构及生产者架构1 kafka集群整体架构众所周知，Kafka在目前的大数据市场中非常的火爆，因为kafka同时承担了以下3种角色。消息队列与RocketMQ差不多的吞吐量，可以削峰、解耦、异步消息存储在传输消息的同时还能对数据进行存储，实现可靠性，同时支持横向扩展，实现高扩展性流式处理框架Kafka提供了客户端API，能对数据进行统计、窗口等操作那么Kafka的整体架构如下：[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(i

2020-12-04 16:28:04 447 4

原创 Kafka-之Producer生产者（含拦截器、分区器、序列化器及异步消息发送模式）

Kafka-之Producer生产者（含拦截器、分区器、序列化器及异步消息发送模式）Kafka生产者是整个Kafka架构中的一个角色，可以是不同集成了Kafka的组件，KafkaProducer是线程安全的，可以同时给多个线程使用。1 如何构建一个KafkaProducer构建一个KafkaProducer的构造方法有2种：//首先配置Producer必要配置Properties properties = new Properties();properties.put(ProducerConfi

2020-12-04 15:48:04 786

原创 Hbase-之Bloom Filter布隆过滤器 & hbase请求交互

Hbase-之Bloom Filter布隆过滤器&Hbase1 BloomFilter是什么？布隆过滤器，以它的创始人Burton Howard Bloom的名字命名,首先明确一个点，它只是一个数据结构，这个数据结构最开始被设计成预测一个给定的元素在某个数据集中是否存在，它有如下特点：精确的结果不一定准确，也就是返回的a存在于集合A结果不一定是准确的；不精确的结果一定是对的，即a不存在与集合A那是约等于100%是准确的。布隆过滤器很适用于类似于Hbase这样的大数据集，如果想了解更多B

2020-12-03 16:12:10 1459

原创 Hbase-之Coprocessor实现implements & 加载load

Hbase-之Coprocessor实现implements与加载load1 Coprocessor简介小伙伴们，如果需要了解更多协处理器相关的原理请参阅：赖明杰的博客(早期)还请参阅：怎么使用hbase-协处理器这里面有好多好多的东西，很全面。Hbase的协处理器是继Goolgle的Bigtable的协处理器之后衍生出来的一个模型；协处理器允许将用户的自定义代码直接运行在RegionServer上，从而对Hbase中的数据进行访问与管理。虽然对于开发者来说，coprocessor有着良好的特

2020-12-03 11:45:23 176

原创 Hbase-之数据批量导入bulk load(使用场景、用法)

Hbase-之数据批量导入Hbase包含几种将数据导入到Table的方式用Mapreduce方式通过TableOutoutFormat写入Table使用Client的API，通过Put的方式bulk load使用一个MR的任务用Hbase的数据格式将数据输出到指定HDFS的HFile(StoreFile)，然后将生成的StoreFile加载到运行中的Hbase集群使用bulk load批量导入数据相比其它方式：占用更少的CPU和网络资源开销1 bulk load使用场景If you

2020-12-02 16:46:11 4090

原创 Hbase-之StoreFile的Compaction(手动major compaction、管理compaction、compaction的策略以及相关配置参数)

Hbase-之StoreFile的Compaction1 前言在谈及storefile的compaction内容之前，我们先搞清楚几个模棱两可的术语：StoreFile实际上是针对Hbase的专业术语，实际上与HFile是同一个概念，在compaction的期间，用StoreFile代替HFile称呼会更好；Store与ColumnFamily实际上是同一个概念，我们可以称StoreFile与Store有关系或者StoreFile与ColumnFamily有关系；假如你想用StoreFile代替

2020-12-02 11:55:12 2001

原创 Hbase-之HFile存储结构解析

Hbase-之HFile存储结构解析StoreFile(HFile)是Hbase最终存储数据的介质，这里需要了解几个Hbase相关的名词BlockKeyValue具体的HFile的结构图示如下：1 BlockHFile是底层存储Hbase数据的Block-based-index-File，而每个HFile又是由N个Blocks组成的，Block是基于ColumnFamily的，不同的ColumnFamily的数据存储在不同的Store下的不同的Hfile中的不同Block中；HFile

2020-12-01 16:44:05 1379

原创 GreenPlum轻量级MPP架构数仓-数据流程调度

GreenPlum轻量级MPP架构数仓-数据流程调度DataXGreenPlumHera-Scheduler/airflow(最好不要将SQL嵌入到python脚本中，还是使用psql命令执行SQL代码，便于维护)Mysql数据源、Kafka数据源1 DataX数据采集1.1 数据从业务库MySQL到数仓GP{ "job": { "content": [ { "reader": {

2020-12-01 14:59:32 1478

shufangreal的博客