自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (1)
  • 收藏
  • 关注

转载 Flink的状态介绍和有状态的计算

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/sghuu/article/details/1036965081 Flink的状态指的是1.1.维护的状态变量,键控状态值状态(Value state)为每个键存储一个任意类型的单个值。复杂数据结构也可以存储为值状态。列表状态(List state)为每个键存储一个值的列表。列表里的每个数据可以是任意类型。映射状态(Map state)为每个键存储一个键值映射(map.

2020-06-27 23:39:21 782

转载 SparkSQL RDD,DataFrame,DataSet三者的区别与联系

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.jianshu.com/p/c3b2623492261.RDD优点: 1.1 编译时类型安全; 1.2 编译时就能检查出类型错误; 1. 3 面向对象的编程风格; 1.4 直接通过类名点的方式来操作数据缺点: 1.1序列化和反序列化的性能开销; 1.2无论是集群间的通信,还是IO操作都需要对对象...

2020-06-27 23:35:40 466

转载 hive窗口函数 (V1.0)

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.jianshu.com/p/12eaf61cf6e1一:前言根据官网的介绍,hive推出的窗口函数功能是对hive sql的功能增强,确实目前用于离线数据分析逻辑日趋复杂,很多场景都需要用到。以下就是对hive窗口函数的一个总结附上案例。二:理解下什么是WINDOW子句(灵活控制窗口的子集)PRECEDING:往前FOLLOWING:往后CURRENT ROW:当前行UNBOUNDED:

2020-06-27 23:15:45 197

原创 【HIVE】Hive 显示查询的字段名

1、在没有配置项时查询的结果如下2、添加配置,在当前CLI窗口set只能起到局部的作用,想永久生效可以在配置文件里hive-site.xml 2.1、只保留在当前会话窗口有效命令:set hive.cli.print.header=true;2.2、配置永久生效命令,打开hive-site.xml文件:<configuration> <property> <name>hive.cli.print.header<..

2020-06-24 14:33:51 2866

转载 hive部分:hive的优化,MapReduce的优化

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/wyqwilliam/article/details/81973974hive 核心思想:把 Hive SQL 当做 Mapreduce 程序去优化。以下 SQL 不会转为 Mapreduce 来执行:select 仅查询本表字段; where 仅对本表字段做条件过滤。explain 命令可以显示执行计划:EXPLAIN [EXTENDED] query; EXTE

2020-06-21 15:04:47 295

转载 Hive建模 类型

https://www.cnblogs.com/xupccc/p/9544575.html1、介绍Hive作为数据仓库,同关系型数据库开发过程类似,都需要先进行建模,所谓建模,就是对表之间指定关系方式。建模在hive中大致分为星型、雪花型和星座型。要对建模深入理解,首先需要对hive数仓中的集中表概念进行界定。hive中的表从形态上分内部表、外部表、桶表、分区表。在数据逻辑上划分为维度表和事实表。维度表等价于我们常说的字典表。事实表就是字典表之外的数据表。1.1 星型多张维度表,一张事实表,

2020-06-21 14:59:09 370

转载 hive创建一个自定义函数处理复杂数据

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/wangjiadongge/article/details/824248701.数据格式实例:-------------------------------------1,zhangsan:18:beijing|nan|it,20002,lisi:28:nanjing|nan|it,40003,xiaowu:38:qingdao|nan|it,1000----------

2020-06-21 14:58:11 307 2

转载 Kafka Exactly Once语义与事务机制原理

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅http://www.jasongj.com/kafka/transaction/写在前面的话本文所有Kafka原理性的描述除特殊说明外均基于Kafka 1.0.0版本。为什么要提供事务机制Kafka事务机制的实现主要是为了支持Exactly Once即正好一次语义 操作的原子性 有状态操作的可恢复性Exactly Once《Kafka背景及架构介绍》一文中有说明Kafka在0.11.0.0之前的版本中

2020-06-21 14:52:24 217

转载 flink 多流join 触发时机详解

https://my.oschina.net/u/2969788/blog/3082677flink 多流join 触发时机详解 flink多流join代码很简单,但是对于初学者可能会遇到window窗口计算不能触发的"假象",这往往是由于对flink window eventtime processtime理解不到位引起的,以下示例将详述join在不同时间下的触发过程.join+window+processtime代码import java.text.SimpleDateFo..

2020-06-21 14:45:04 1305 3

转载 hive使用动态分区插入数据详解

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/qq_26442553/article/details/80382174 往hive分区表中插入数据时,如果需要创建的分区很多,比如以表中某个字段进行分区存储,则需要复制粘贴修改很多sql去执行,效率低。因为hive是批处理系统,所以hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。1.创建一个单一字段分区表hive>cr...

2020-06-21 14:43:32 416

转载 hbase热点问题解决(预分区)

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/qq_31289187/java/article/details/80869906一、出现热点问题原因1、hbase的中的数据是按照字典序排序的,当大量连续的rowkey集中写在个别的region,各个region之间数据分布不均衡;2、创建表时没有提前预分区,创建的表默认只有一个region,大量的数据写入当前region;3、创...

2020-06-21 14:35:32 317

转载 Spark内存模型详解

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.cnblogs.com/coco2015/p/11240677.html1 堆内和堆外内存规划Spark执行器(Executor)的内存管理建立在 JVM 的内存管理之上,Spark 对 JVM 的空间(OnHeap+Off-heap)进行了更为详细的分配,以充分利用内存。同时,Spark 引入了Off-heap 内存模式,使之可以直接在工作节点的系统内存中开辟空间,进一步优化了内存的使用(可以理解为

2020-06-21 14:27:47 373

转载 Spark的shuffle算子

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://kuncle.github.io/blog/spark/Spark的shuffle算子去重 def distinct()def distinct(numPartitions: Int) 聚合 def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]def reduceByKey(partitioner: Par

2020-06-21 14:25:34 363

转载 Spark内存模型详解

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.cnblogs.com/coco2015/p/11240677.html1 堆内和堆外内存规划Spark执行器(Executor)的内存管理建立在 JVM 的内存管理之上,Spark 对 JVM 的空间(OnHeap+Off-heap)进行了更为详细的分配,以充分利用内存。同时,Spark 引入了Off-heap 内存模式,使之可以直接在工作节点的系统内存中开辟空间,进一步优化了内存的使用(可以理解为

2020-06-16 21:01:05 394

转载 spark机器学习 K-means聚类算法

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/weixin_43283487/article/details/890335991.聚类和分类区别K-means聚类算法中K表示将数据聚类成K个簇,means表示每个聚类中数据的均值作为该簇的中心,也称为质心。K-means聚类试图将相似的对象归为同一个簇,将不相似的对象归为不同簇,这里需要一种对数据衡量相似度的计算方法,K-means算法是典型的基于距离的聚类算法,采用距离作为相

2020-06-16 20:56:53 664

转载 HBase compact 总结 及 调优配置

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/mt0803/article/details/93722271Compaction介绍在HBase中,每当memstore的数据flush到磁盘后,就形成一个storefile,当storefile的数量越来越大时,会严重影响HBase的读性能,所以必须将过多的storefile文件进行合并操作。Compaction是Buffer-flush-merge的LS...

2020-06-16 20:48:58 573

转载 Kafka学习梳理

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.cnblogs.com/Peter2014/p/12843382.html如果要入门大数据,kafka算是一个很好的入口。kafka作为数据管道和存储设施在大数据系统中无所不在,本文基于官方文档对kafka进行一次学习和梳理。介绍消息系统Kafka是一个消息系统,它是分布式的,大吞吐量的消息系统。整合了点对点和发布订阅两种模式传统的消息系统如ActiveMQ通常具备两种模式:点对点模式

2020-06-15 21:02:00 179

转载 hive的各种存储类型对比

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/yisun123456/article/details/89680107Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。ClouderaImpala也支持这些文件格式。在建表时使用STORED AS (TextFile|RCFile|SequenceFi..

2020-06-15 20:34:43 405

转载 Kafka Exactly Once语义与事务机制原理

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/jiankunking/article/details/88087215一、写在前面的话本文所有Kafka原理性的描述除特殊说明外均基于Kafka 1.0.0版本。强烈建议看下文:KIP-98 - Exactly Once Delivery and Transactional Messaging二、为什么要提供事务机制Kafka事务机制的实现主要是为了支持Exact

2020-06-15 20:32:32 246

转载 记一次Hbase热点数据问题解决方案

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.cnblogs.com/i80386/p/3696492.html需求描述:扫描(查询)某个区间---》列用hbase多节点的资源,分布式扫描,加快速度==》 然后拼接到一起 如何打散数据 冠字号逆序,hash并不一定数据连续就会造成热点,这个是由数据访问模式决定的。ex:时间作为rowkey,但查询经常按一个时间段来查询=====》 时间作为rowkey会造成时间差不多的在一个regio.

2020-06-15 20:29:15 418

转载 spark提交作业参数

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.jianshu.com/p/5c388fd298061.在提交任务时的几个重要参数executor-cores:每个executor使用的内核数,默认为1num-executors:启动executors的数量,默认为2executor-memory:executor内存大小,默认为1Gdriver-cores:driver使用内核数,默认为1driver-memory:driver内存大小

2020-06-15 20:19:31 520

原创 【HIVE】Hive 通过控制角色(role)权限访问

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/javajxz008/article/details/81084744hive有两种类型的权限控制方式:一、通过Hcatcalog API访问hive数据的方式,实际是通过访问metastore元数据的形式访问hive数据,这类有MapReduce,impala,pig,Spark SQL,hive Command line等方式,基于这种方式的权限控制称为:Storage Bas

2020-06-15 20:16:13 5739 3

转载 大数据入职阿里云面经

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://mp.weixin.qq.com/s/F2TiFw-LYFXMRj_hsD-TIw一、面试准备面试前,我花了很多时间,对项目进行了梳理,尤其在业务数仓的分层和多维数据模型设计这块。整个项目的业务流程、数据流向我用一张白纸进行了梳理,数据收集 + 数仓建设+数据建模+数据清洗 + 数据转换+ 特征提取+算法建模+数据展示,我觉得对自己做过或者参与的项目,在准备面试前,做一次系统的复盘,是必不可少的。大数据技

2020-06-15 20:12:25 1062 2

转载 Spark:coalesce()方法和repartition()方法

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://blog.csdn.net/olizxq/article/details/828084121、coalesce()方法def coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null) : RDD[T] = withScope { if (shuffle) { } el...

2020-06-15 20:09:26 232

转载 spark repartition与coalesce区别

推荐大家去看原文博主的文章,条理清晰阅读方便,转载是为了方便以后个人查阅https://www.cnblogs.com/frankdeng/p/9301699.html窄依赖、宽依赖以及stage的划分依据:https://www.cnblogs.com/itboys/p/6673046.html参考: http://blog.csdn.net/u012684933/article/details/51028707参考: http://blog.csdn.net/dax1n/artic.

2020-06-15 20:03:32 262

转载 乐观锁和悲观锁的使用场景及应用

一、定义1、乐观锁:顾名思义,对每次的数据操作都保持乐观的态度,不担心数据会被修改,所以不会对数据进行上锁。由于数据没有上锁,这就存在数据会被多人读写的情况。所以每次修改数据的时候需要对数据进行判断是否被修改过。2、悲观锁:与乐观锁相反,对每次的数据操作都保存悲观的态度,总是担心数据会被修改,所以在自己操作的时候会对数据上锁,防止在自己操作的时候被他人同时操作导致更新丢失。二、使用场景1、乐观锁:由于乐观锁的不上锁特性,所以在性能方面要比悲观锁好,比较适合用在DB的读大于写的业务场景。...

2020-06-02 00:30:16 1661

bak_hive_ddl.sh

hive数仓databases,tables DDL语句 备份脚本,下载即可直接运行,需要运行脚本前须保证数据库已创建完成,数据库需要手动创建

2020-08-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除