自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

迎难而上

热爱技术的IT人

  • 博客(1062)
  • 收藏
  • 关注

原创 HBase_Hbase 查看Hbase 版本

我们可以利用 Hbase-shell 进行版本的查看进入Hbase-shell 后可以看到 hbase版本[root@cdh-manager ~]# hbase shellJava HotSpot(TM) 64-Bit Server VM warning: Using incremental CMS is deprecated and will likely be remove...

2020-04-20 15:45:25 12875

原创 HBase_HBase_Java客户端_基本操作

本文主要讲解如何通过 Java API 操作 HBase

2020-04-17 16:48:00 160

原创 Hive_HIVE优化指南_场景九_减少IO次数

大纲地址 :https://blog.csdn.net/u010003835/article/details/105334641场景九.减少IO次数1) 通过多表插入 FROM A INSERT B SELECT a, ... INSERT C SELECT a, ...2) 一次输入,多次使用 WITH TABLE AS (...)...

2020-04-13 19:14:29 467

原创 Hive_HIVE优化指南_场景八_数据裁剪问题

Hive优化,大纲地址:https://blog.csdn.net/u010003835/article/details/105334641测试数据场景八_数据裁剪问题1) 记录数裁剪 i.通过分区,分桶 表的优势 去构建 ii.通过筛选条件,去除无效的记录,使得无效数据在 map 阶段 剔除2) 列裁剪i.剔除...

2020-04-13 18:50:15 737

原创 Hive_HIVE优化指南_场景七_数据倾斜问题

Hive 优化,大纲地址 :https://blog.csdn.net/u010003835/article/details/105334641场景七.数据倾斜问题1) 由于空值导致的数据倾斜问题2) 由于数据类型不一致,导致的转换问题,导致的数据倾斜3) 业务数据本身分布不均,导致的数据倾斜...

2020-04-13 18:47:29 1212 1

原创 Hive_HIVE优化指南_场景六_通过让MAP 端, 多去承担任务, 去减少 Reducer 的计算成本 和 数据传输成本

大纲地址 :https://blog.csdn.net/u010003835/article/details/105334641测试数据场景六.通过让MAP 端, 多去承担任务, 去减少 Reducer 的计算成本 和 数据传输成本。1)MAP JOIN 的方式2) MAP AGGR , 在 Map 端进行预聚合...

2020-04-13 18:45:02 499

原创 Hive_HIVE优化指南_场景五_排序问题

优化大纲:https://blog.csdn.net/u010003835/article/details/105334641测试表以及测试数据+----------------------------------------------------+| createtab_stmt |+...

2020-04-13 18:33:35 429

原创 Hive_HIVE优化指南_场景四_控制任务中 节点 / 文件 数量

测试表以及测试数据+----------------------------------------------------+| createtab_stmt |+----------------------------------------------------+| CREATE TABLE `data...

2020-04-13 18:01:31 1403

原创 Hive_HIVE优化指南_场景三_合理进行并行控制

测试表以及测试数据+----------------------------------------------------+| createtab_stmt |+----------------------------------------------------+| CREATE TABLE `data...

2020-04-13 17:52:31 463

原创 Hive_HIVE优化指南_场景二_减少JOB的数量

大纲地址 :https://mp.csdn.net/console/editor/html/105334641测试表以及测试数据+----------------------------------------------------+| createtab_stmt |+--------------...

2020-04-13 17:48:13 3036 1

原创 Hive_HIVE优化指南_场景一_去重场景问题

本文大纲地址 :https://blog.csdn.net/u010003835/article/details/105334641测试表以及测试数据+----------------------------------------------------+| createtab_stmt |+----...

2020-04-13 17:39:08 1268

原创 Hive_ Both left and right aliases encountered in JOIN 'user_id' (state=42000,code=10017)

这里,我们在执行如下SQL的时候报错,SQL与报错如下:0: jdbc:hive2://cdh-manager:10000> SELECT . . . . . . . . . . . . . . . . .> a.user_id. . . . . . . . . . . . . . . . .> ,a.salary. . . . . . . . . . . ...

2020-04-13 12:15:18 1792 2

原创 Hive_LEFT SEMI JOIN / LEFT OUTER JOIN 与 (IN / NOT IN), (EXISTS / NOT EXISTS ) 分析

本篇文章,我们主要就 Hive 中的 LEFT SEMI JOIN 和(IN / NOT IN), (EXISTS / NOT EXISTS ) 子句查询做一个了解。LEFT SEMI JOIN 基本认识首先,我们先要了解下什么是 LEFT SEMI JOIN.其实可以这么认为 LEFT SEMI JOIN 就是 子查询形式的(IN / NOT IN), (EXISTS ...

2020-04-12 22:02:10 2320

原创 HBase_HBase 简介与架构设计

最近,看了些HBase 的文章,最近主键对HBase 这块做一些总结。

2020-04-11 10:10:14 128

原创 Hive_Hive 多表数据插入

参考文章:https://blog.csdn.net/lifei128/article/details/82393539Hive支持多表插入,可以在同一个查询中使用多个insert子句,这样的好处是我们只需要扫描一遍源表就可以生成多个不相交的输出!例子 :from test1insert overwrite table test2partition (ag...

2020-04-08 23:19:47 5108 1

转载 Hive_Hive WITH table_name AS 生成临时表

参考文章 :https://blog.csdn.net/Abysscarry/article/details/81322669在我们编写SQL 时候,常常需要使用到临时表。 然后我们根据这个临时表,进行之后的操作,但是创建临时表有一定的开销。如果这个临时表并不需要保存,并且下文只需要用有限的几次,我们可以采用下面的方法。背景:当我们书写一些结构相对复杂的S...

2020-04-08 23:06:22 12872

原创 Hive_Hive 中 结合 with 临时表 , FROM ** INSERT 多表插入, ROLLUP/ CUBE/ GROUPING SETS 窗口函数 优化统计写入逻辑

Hive 中FROM **

2020-04-08 18:26:15 5384

原创 Hive_Hive ROLLUP, GROUPING SETS, CUBE 聚合函数 GROUPING 函数 与 GROUPING__ID 计算方式

在 ROLLUP, GROUPING SETS , CUBE 函数中 , 我们会需要用到 GROUPING 函数 与 GROUPING__ID 。通过 GROUPING 函数,可以方便的知道所选择的列 是否进行了聚合。而通过 GROUPING_ID 可以结合 ROLLUP, GROUPING SETS , CUBE 列的顺序,知道用那些列 进行了...

2020-04-07 21:18:18 1182

原创 Hive_Hive ROLLUP, GROUPING SETS, CUBE 聚合函数 与 GROUPING 函数

在使用Hive 的时候,我们常常进行聚合统计运算。聚合统计的运算函数有很多,比如 我们最常用的 GROUP BY 函数。但是常常我们需要多维度统计数据,这个时候我们就会用到Hive 的上卷函数...

2020-04-06 22:40:09 1461

原创 Hive_Hive 优化指南详解

Hive 的SQL 运行优化 ,我们可以从以下几个方面着手

2020-04-05 22:01:42 778

原创 Hadoop_MapReduce 运行流程 - MR job 运行的5个阶段

参考文章:https://www.cnblogs.com/cjsblog/p/8168642.htmlhttps://www.jianshu.com/p/461f86936972mapreduce运行的5个阶段mapreduce在运行的过程中大致概括为5个步骤1. [input阶段]获取输入数据进行分片作为map的输入2. [map阶段]过程对某种输入格式的一条记...

2020-04-05 21:56:03 1040

转载 Hadoop_ MR JOB 中排序发生在那几个阶段 ?

原文地址:https://blog.csdn.net/qq_42246689/article/details/84590215这是一道面试题,由于博主没有怎么写过 MR JOB . 最近在复习所学的知识,刚好整理到 排序问题了。1.map最后阶段进行partition分区,一般使用job.setPartitionerClass设置的类,如果没有自定义Key的hashCode...

2020-04-03 21:21:28 771 2

原创 Hive_Hive Metastore Server 与 HiveServer2

Hive 中对数据访问,有两个服务,Metastore Server 与 HiveServer2。注意 : 这两个服务是不一样的,简单来说 : Metastore Server 负责对元数据的访问,即表结构,库信息。如 : SHOW DATABASES; 而 HiveServer2 负责对Hive 表中具体数据的访问。Metastore Server 与 HiveSer...

2020-04-01 22:12:23 2969

原创 Hive_Hive架构 与 3种连接 metastore 的方式

首先附上一个 Hive 的整体架构图可以看到分别有以上几种角色。这就决定了我们在连接 metastore 的时候,如何去做连接,可以分为下面三种方式。1.内嵌derby方式2.直连metastore方式3.通过thrift server 连接 metastore 的方式1.内嵌derby方式2.直连metastore方式...

2020-04-01 22:02:27 2566

原创 Hive_ Hive DISTINCT , JOIN 运行流程

对Hive 有一定了解的同学们,一定要对 Hive 几种常用的语句的内部运行机制做一定的了解。这样我们才能更好的去优化Hive,对SQL 做一定的调整。下面我们主要通过 DISTINCT JOIN两类操作,详细的去介绍 Hive 底层 的 MapReduce 执行流程。DISTINCT 流程图:可以看到上面的第一个阶段...

2020-04-01 21:25:44 738

原创 Hive_数据仓库_数据类型的选择

Hive 有很多的基础数据类型,在实际构建数仓的这么多数据类型,我们该如何选择呢?如果你的公司足够大,那么建议参照以下几条建议:浮点数建议:1) Hive 中Double类型需要慎用, Hive 中Double类型存在失真。例如: 原始数据是 10000, Hive 中10000 可能为10000.00012) 为了浮点数越界,或者失真的问题,建...

2020-03-31 22:25:33 863

原创 Hive_Hive内部表与外部表的选择

Hive 中有内部表 与 外部表 两种表。Hive 主要是用于数据仓库建设的。那么在数据仓库中,那我们该如何在两种表的类型中选择呢 ??下面是几条原则 : 1.在大部分场景下,两种表的应用没有太大的区别。 2.数据场景简单, 几乎都是在Hive中的流转, 可以优先选用内部表。 3.需要对数据内容和元数据进行紧凑的管理, 建...

2020-03-31 22:04:03 1770

原创 数据仓库_拉链表_拉链表实现思路

本篇文章,主要讲解1.什么是拉链表 以及 拉链表示例2.不同原始表情况下,拉链表如何构建。。。。。。

2020-03-13 20:44:36 3980 1

原创 数据仓库_数据仓库_缓慢渐变维度实现的几种思路

数仓缓慢渐变维度表设计缓慢渐变维度:维度数据会随着时间发生变化,变化速度比较缓慢,这种维度数据通常称作缓慢渐变维; 由于数据仓库需要追溯历史变化,尤其是一些重要的数据,所以历史状态也需要采用一定的措施进行保存。大致分为以下几种实现思路1) 全量快照:每天保存当前数据的全量快照数据,该方案适合数据量较小的维度,使用简单的方式保存历史状态。...

2020-02-21 00:03:23 1243

原创 数据仓库_缓慢渐变维_拉链表(全揭秘)

这篇文章我们主要讲解下以下几个点什么是拉链表,用于什么样的场景 拉链表的示例 如何获取某一天的历史状态 如何在使用维度拉链表并使用代理键的前提下,构建含维度代理键的事实表1.什么是拉链表,用于什么样的场景 当维度数据发生变化时,将旧数据置为失效,将更改后的数据当作新的记录插入到维度表中,并开始生效,这样能够记录数据在某种粒度上的变化历史。2.拉链...

2020-02-20 23:53:14 2400

原创 Hive/数据仓库_Hive 中如何生成代理键

前提: 数仓中的维度,事实表技术提倡用代理键代替实体键,下面我们讲解下代理键的概念,以及Hive中如何生成代理键 (自增列)代理键 : 维度表中必须有一个能够唯一标识一行记录的列,通过该列维护维度表与事实表之间的关系,一般在维度表中业务主键符合条件可以当作维度主键。补充: 是由数据仓库处理过程中产生的,与业务本身无关的, 唯一标...

2020-02-20 23:40:11 3106 7

原创 数据仓库_数据仓库 维度表命名规范

平时我们在做数据仓库的时候,一个好的数据仓库在表的名称上是有一定规范的,下面介绍下这些规范。后缀命名:_i => increase 按天增量的维度表_d => day 按天分区的快照表_a => all 不做分区的全量维度表...

2020-02-20 23:25:14 3796 2

原创 数据库_SQL知识_一条语句中 同时更新多个记录, 利用CASE WHEN ( 每个记录更新为不同结果)

今天遇到了一个问题,我们要根据一个List 中传入的不同的信息 更新多条记录,但是每个记录更新后的值都不相同,这应该如何实现呢?主要目的,一次更新多条,减少与数据库的访问次数为模拟真实情况,我们创建了一张表CREATE TABLE `multi_update` ( `id` int(11) NOT NULL AUTO_INCREMENT, `name` va...

2020-01-10 16:25:34 1165

原创 MySQL SUM 中使用条件判别 CASE WHEN THEN ELSE END  / IF(expr1,expr2,expr3)

在平日的统计任务中,我经常用到 SUM 进行数据的统计。随着统计需求的日益复杂,我们在进行求和统计的时候,需要针对各种情况做不同的处理。这个时候我们就需要用到SUM 与 CASE WHEN THENELSE END /IF(expr1,expr2,expr3) 结合使用下面我们分别看下这两个表达式的基本用法1.CASE WHEN THENELSE END...

2019-10-10 19:56:43 861

原创 Hive_处理NULL的几个函数 NVL, COALESCE, NULLIF

官方文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF参考文档:https://blog.csdn.net/qq_34105362/article/details/80402806 Hive提供了很多的函数,可以在命令行下show functions罗列所有的函数,你会发现这...

2019-10-09 20:21:56 11377

原创 Spark_Spark算子_repartitionAndSortWithinPartitions

Spark 提供了 repartitionAndSortWithinPartitions 算子,首先我们说说这个算子的用处 :给算子可以通过指定的分区器进行分组,并在分组内排序 。因此,可以满足我们如下的需求 :例如 : 例子1. 将rdd数据中相同班级的学生分到一个partition中,并根据分数降序排序 例子2. 相同组合Key分组到同一分区,分区中先按照...

2019-09-19 15:16:40 6746 1

原创 Spark_异常_java.lang.ArrayIndexOutOfBoundsException: -7 at org.apache.spark.shuffle.sort.BypassMergeSo

今天尝试了一个新的算子 repartitionAndSortWithinPartitions , 遇到了一个问题。具体异常报错如下:java.lang.ArrayIndexOutOfBoundsException: -7 at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMe...

2019-09-18 21:58:02 1941

原创 Nginx 的几种负载均衡策略

111

2019-08-07 17:44:17 437

转载 代理技术_反向代理, 正向代理, 透明代理 技术

在讲解 Nginx 反向代理配置之前,我们需要对 现在主流的几种代理技术的定义有所了解。现在主要的几种代理技术 主要有 反向代理,正向代理,透明代理 3种,下面对这3种技术一一介绍。前言 套用古龙武侠小说套路来说,代理服务技术是一门很古老的技术,是在互联网早期出现就使用的技术。一般实现代理技术的方式就是在服务器上安装代理服务软件,让其成为一个代理服务器,从而...

2019-08-06 21:31:04 381

原创 Python_pip 安装 pymysql 报错 : OSError: mysql_config not found

由于项目需要 ,我使用 Django框架需要安装 pymysql ,使用 pip 安装报错如下:(venv) [root@dev-109-kvm superset_dev]# pip install pymysql Collecting pymysql Using cached https://files.pythonhosted.org/packages/ed/39/...

2019-07-31 21:35:36 1186

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除