许则则的大数据笔记-CSDN博客

原创写给 Java 程序员的 Scala 快速入门

我平时主要是写 Java，有时候读源码如 Kafka 或者 Spark 会遇见 Scala 的语法，总觉得有点别扭。我总结了一下 Scala 和 Java 有差异的语法。目的就是快速入门，消除别扭1.val 和 varScala 有两类变量：val 和 varval 类似 Java 的 final 变量，一旦初始化就不能被重新赋值var 可以被重新赋值object Test { def main(args: Array[String]) { // 申明变量的关键字 var

2021-11-07 17:10:04 3744

原创 ClickHouse 之 AggregatingMergeTree

SummingMergeTree 只能实现相加，若要实现其他聚合效果则使用AggregatingMergeTree使用ORDER BY排序键作为聚合数据的条件Key以分区为单位进行聚合，只在分区合并时触发数据不能通过普通的insert插入，而只能通过insert into select一般使用建表：AggregateFunction( ck 自带聚合函数，数据类型)写入数据时，需要调用 xxState读取数据时，需要调用 xxMergeCREATE TABLE agg_table.

2021-10-10 23:38:00 1606

原创 ClickHouse 之 SummingMergeTree

只需要根据GROUP BY条件得到汇总结果（SUM），不关心明细数据。解决存储和查询的开销。特点使用ORDER BY排序键作为聚合汇总的条件Key。以分区为单位进行聚合，只在分区合并时触发。如果指定了columns汇总列，则SUM汇总在这些列字段。如果未指定columns汇总列，则SUM汇总在所有非主键的数值类型字段。如果ORDER BY和PRIMARY KEY的字段不相同，PK列字段必须是ORDER BY的前缀，即ORDER BY(B, C) PRIMARY KEY A不合法。非聚合字.

2021-10-10 23:34:55 545

原创 ClickHouse 之 ReplacingMergeTree

设计为相同分区的数据进行数据去重。特点使用ORDER BY排序键作为唯一键以分区为单位进行去重，只在分区合并时触发如果参数没设置列，则保留重复数据的最后一行使用CREATE TABLE replace_table( id String, code String, time DateTime) ENGINE = ReplacingMergeTree(time) PARTITION BY toYYYYMM(time)ORDER BY (id, code) .

2021-10-10 23:30:55 1074

原创 Hive 自定义文件格式

题目建表时使用 create table ... stored as geek 来创建GeekFormat表该表的文件类型为文本类型，非二进制类型，类似Base64TextInputFormat和Base64TextOutputFormat，GeekFormat也是用于加密解密规则如下：文件中出现任何的geek，geeeek，geeeeeeeeeeek等单词时，进行过滤，即删除该单词。gek需要保留。字母中连续的“e”最大长度为256个。例如： This notebook can be

2021-08-12 09:18:36 627

原创 HBase 学习笔记其二：编码

编程实践，使用 API 操作HBase建表，插入数据，删除数据，查询等功能。建立一个如下所示的表JAVA APIAPI 结构ConnectionFactoryConnectionTableGetPutDeleteScanAdmincreateTabletableExistsdeleteTable代码public class HBaseDemo { public static final String ZK_CONNECT_KEY =

2021-07-30 08:57:27 136

原创 HBase 学习笔记其一：概念

概述HBase 是海量数据下可以对单条数据快速访问的数据库特点适合存储PB级别的海量数据，在PB级别的数据以及采用廉价PC存储的情况下，能在几十到百毫秒内返回数据。处理能力和存储能力都很容易扩展 HBase本质依然是Key-Value数据库，查询数据功能很简单，不支持join等复杂操作(可通过Hive支持来实现多表join等复杂操作) 根据列族来存储数据的。列族下面可以有非常多的列，列族在创建表的时候就必须指定。 HBase中支持的数据类型：byte[]（底层所有数据的...

2021-07-30 08:51:03 367

原创大数据的 5V 特征

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Mar

2021-07-02 07:30:57 682

原创 Kafka 面试拷问 20 题

Kafka 面试拷问 20 题文章目录Kafka 面试拷问 20 题1. Kafka 基础2. Kafka 数据重复怎么解决3. Kafka 如何不丢失数据4. Kafka 数据积压怎么解决5. Kafka 的幂等和事务对比6. Kafka 常用的调优参数7. 如果 leader crash时，ISR为空怎么办?8. 机器资源评估9. Kafka 进行监控的工具10. 哪些场景你会选择Kafka？11. 如何实现 Kafka 全局有序12. 监控 Kafka 的框架都有哪些？13. Kafka中的分区器、

2021-02-02 20:55:56 232

原创 Kafka 如何实现 Exactly Once

流式系统中最重要的保证：Exactly Once，即消息不会丢失，也不会被重复发送在 Kafka 0.11 之前，开启重试机制只能保证数据不丢失，但是数据有可能有重复在 Kafka 0.11 之后，可以实现数据的精准一次，它能保证多条消息原子性地写入到目标分区，即要不一起成功，要不都失败主要靠两点：事务型 ProducerConsumer 只会成功提交的事务消息1. 事务型 Producer开启事务型 Producer 需要做以下 3 点：设置 enable.idempotence =

2020-12-10 23:36:28 664

原创给 HDFS 常用指令取别名

平时在输入 hdfs 执行时老是输很长一串，例如：hdfs dfs -ls /data 其实可以利用 linux 起别名的方式来实现快速输入，如用 hls /data 替代之前的指令。1、打开 .bashrcvi ~/.bashrc2、加入别名alias hls='hdfs dfs -ls'alias hlsr='hdfs dfs -ls -R'alias hdu='hdfs dfs -du'alias hdus='hdfs dfs -dus'alias hcount='hdfs dfs

2020-12-05 22:45:30 281