2020年06月_Zsigner

转载 Flink的状态介绍和有状态的计算

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://blog.csdn.net/sghuu/article/details/1036965081 Flink的状态指的是1.1.维护的状态变量,键控状态值状态（Value state）为每个键存储一个任意类型的单个值。复杂数据结构也可以存储为值状态。列表状态（List state）为每个键存储一个值的列表。列表里的每个数据可以是任意类型。映射状态（Map state）为每个键存储一个键值映射（map.

2020-06-27 23:39:21 782

转载 SparkSQL RDD,DataFrame,DataSet三者的区别与联系

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://www.jianshu.com/p/c3b2623492261.RDD优点： 1.1 编译时类型安全； 1.2 编译时就能检查出类型错误； 1. 3 面向对象的编程风格； 1.4 直接通过类名点的方式来操作数据缺点： 1.1序列化和反序列化的性能开销； 1.2无论是集群间的通信，还是IO操作都需要对对象...

2020-06-27 23:35:40 466

转载 hive窗口函数（V1.0）

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://www.jianshu.com/p/12eaf61cf6e1一：前言根据官网的介绍，hive推出的窗口函数功能是对hive sql的功能增强，确实目前用于离线数据分析逻辑日趋复杂，很多场景都需要用到。以下就是对hive窗口函数的一个总结附上案例。二：理解下什么是WINDOW子句（灵活控制窗口的子集）PRECEDING：往前FOLLOWING：往后CURRENT ROW：当前行UNBOUNDED：

2020-06-27 23:15:45 197

原创【HIVE】Hive 显示查询的字段名

1、在没有配置项时查询的结果如下2、添加配置，在当前CLI窗口set只能起到局部的作用，想永久生效可以在配置文件里hive-site.xml 2.1、只保留在当前会话窗口有效命令：set hive.cli.print.header=true;2.2、配置永久生效命令，打开hive-site.xml文件：<configuration> <property> <name>hive.cli.print.header<..

2020-06-24 14:33:51 2866

转载 hive部分：hive的优化，MapReduce的优化

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://blog.csdn.net/wyqwilliam/article/details/81973974hive 核心思想：把 Hive SQL 当做 Mapreduce 程序去优化。以下 SQL 不会转为 Mapreduce 来执行：select 仅查询本表字段； where 仅对本表字段做条件过滤。explain 命令可以显示执行计划：EXPLAIN [EXTENDED] query; EXTE

2020-06-21 15:04:47 295

转载 Hive建模类型

https://www.cnblogs.com/xupccc/p/9544575.html1、介绍Hive作为数据仓库，同关系型数据库开发过程类似，都需要先进行建模，所谓建模，就是对表之间指定关系方式。建模在hive中大致分为星型、雪花型和星座型。要对建模深入理解，首先需要对hive数仓中的集中表概念进行界定。hive中的表从形态上分内部表、外部表、桶表、分区表。在数据逻辑上划分为维度表和事实表。维度表等价于我们常说的字典表。事实表就是字典表之外的数据表。1.1 星型多张维度表，一张事实表，

2020-06-21 14:59:09 370

转载 hive创建一个自定义函数处理复杂数据

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://blog.csdn.net/wangjiadongge/article/details/824248701.数据格式实例：-------------------------------------1,zhangsan:18:beijing|nan|it,20002,lisi:28:nanjing|nan|it,40003,xiaowu:38:qingdao|nan|it,1000----------

2020-06-21 14:58:11 307 2

转载 Kafka Exactly Once语义与事务机制原理

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅http://www.jasongj.com/kafka/transaction/写在前面的话本文所有Kafka原理性的描述除特殊说明外均基于Kafka 1.0.0版本。为什么要提供事务机制Kafka事务机制的实现主要是为了支持Exactly Once即正好一次语义操作的原子性有状态操作的可恢复性Exactly Once《Kafka背景及架构介绍》一文中有说明Kafka在0.11.0.0之前的版本中

2020-06-21 14:52:24 217

转载 flink 多流join 触发时机详解

https://my.oschina.net/u/2969788/blog/3082677flink 多流join 触发时机详解 flink多流join代码很简单,但是对于初学者可能会遇到window窗口计算不能触发的"假象",这往往是由于对flink window eventtime processtime理解不到位引起的,以下示例将详述join在不同时间下的触发过程.join+window+processtime代码import java.text.SimpleDateFo..

2020-06-21 14:45:04 1305 3

转载 hive使用动态分区插入数据详解

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://blog.csdn.net/qq_26442553/article/details/80382174 往hive分区表中插入数据时，如果需要创建的分区很多，比如以表中某个字段进行分区存储，则需要复制粘贴修改很多sql去执行，效率低。因为hive是批处理系统，所以hive提供了一个动态分区功能，其可以基于查询参数的位置去推断分区的名称，从而建立分区。1.创建一个单一字段分区表hive>cr...

2020-06-21 14:43:32 416

转载 hbase热点问题解决（预分区）

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://blog.csdn.net/qq_31289187/java/article/details/80869906一、出现热点问题原因1、hbase的中的数据是按照字典序排序的，当大量连续的rowkey集中写在个别的region，各个region之间数据分布不均衡；2、创建表时没有提前预分区，创建的表默认只有一个region，大量的数据写入当前region；3、创...

2020-06-21 14:35:32 317

转载 Spark内存模型详解

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://www.cnblogs.com/coco2015/p/11240677.html1 堆内和堆外内存规划Spark执行器(Executor)的内存管理建立在 JVM 的内存管理之上，Spark 对 JVM 的空间（OnHeap+Off-heap）进行了更为详细的分配，以充分利用内存。同时，Spark 引入了Off-heap 内存模式，使之可以直接在工作节点的系统内存中开辟空间，进一步优化了内存的使用（可以理解为

2020-06-21 14:27:47 373

转载 Spark的shuffle算子

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://kuncle.github.io/blog/spark/Spark的shuffle算子去重 def distinct()def distinct(numPartitions: Int) 聚合 def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]def reduceByKey(partitioner: Par

2020-06-21 14:25:34 363

转载 Spark内存模型详解

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://www.cnblogs.com/coco2015/p/11240677.html1 堆内和堆外内存规划Spark执行器(Executor)的内存管理建立在 JVM 的内存管理之上，Spark 对 JVM 的空间（OnHeap+Off-heap）进行了更为详细的分配，以充分利用内存。同时，Spark 引入了Off-heap 内存模式，使之可以直接在工作节点的系统内存中开辟空间，进一步优化了内存的使用（可以理解为

2020-06-16 21:01:05 394

转载 spark机器学习 K-means聚类算法

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://blog.csdn.net/weixin_43283487/article/details/890335991.聚类和分类区别K-means聚类算法中K表示将数据聚类成K个簇，means表示每个聚类中数据的均值作为该簇的中心，也称为质心。K-means聚类试图将相似的对象归为同一个簇，将不相似的对象归为不同簇，这里需要一种对数据衡量相似度的计算方法，K-means算法是典型的基于距离的聚类算法，采用距离作为相

2020-06-16 20:56:53 664

转载 HBase compact 总结及调优配置

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://blog.csdn.net/mt0803/article/details/93722271Compaction介绍在HBase中，每当memstore的数据flush到磁盘后，就形成一个storefile，当storefile的数量越来越大时，会严重影响HBase的读性能，所以必须将过多的storefile文件进行合并操作。Compaction是Buffer-flush-merge的LS...

2020-06-16 20:48:58 573

转载 Kafka学习梳理

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://www.cnblogs.com/Peter2014/p/12843382.html如果要入门大数据，kafka算是一个很好的入口。kafka作为数据管道和存储设施在大数据系统中无所不在，本文基于官方文档对kafka进行一次学习和梳理。介绍消息系统Kafka是一个消息系统，它是分布式的，大吞吐量的消息系统。整合了点对点和发布订阅两种模式传统的消息系统如ActiveMQ通常具备两种模式：点对点模式

2020-06-15 21:02:00 179

转载 hive的各种存储类型对比

推荐大家去看原文博主的文章，条理清晰阅读方便，转载是为了方便以后个人查阅https://blog.csdn.net/yisun123456/article/details/89680107Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。ClouderaImpala也支持这些文件格式。在建表时使用STORED AS (TextFile|RCFile|SequenceFi..

2020-06-15 20:34:43 405

Zsigner的博客

转载 Flink的状态介绍和有状态的计算

转载 SparkSQL RDD,DataFrame,DataSet三者的区别与联系

转载 hive窗口函数（V1.0）

原创【HIVE】Hive 显示查询的字段名

转载 hive部分：hive的优化，MapReduce的优化

转载 Hive建模类型

转载 hive创建一个自定义函数处理复杂数据

转载 Kafka Exactly Once语义与事务机制原理

转载 flink 多流join 触发时机详解

转载 hive使用动态分区插入数据详解

转载 hbase热点问题解决（预分区）

转载 Spark内存模型详解

转载 Spark的shuffle算子

转载 Spark内存模型详解

转载 spark机器学习 K-means聚类算法

转载 HBase compact 总结及调优配置

转载 Kafka学习梳理

转载 hive的各种存储类型对比

转载 Kafka Exactly Once语义与事务机制原理

转载记一次Hbase热点数据问题解决方案

转载 spark提交作业参数

原创【HIVE】Hive 通过控制角色（role）权限访问

转载大数据入职阿里云面经

转载 Spark：coalesce()方法和repartition()方法

转载 spark repartition与coalesce区别

转载乐观锁和悲观锁的使用场景及应用

bak_hive_ddl.sh

空空如也