自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 Mac Spark 安装

spark包下载地址:https://spark.apache.org/downloads.html选择适合的spark 版本进行下载再安装spark之前要保证你的电脑上已经安装了JDK,Hadoop , Scala ,Python将下载好的安装包尽心解压,得到如下的文件夹配置conf文件及环境变量conf:复制conf目录下的spark-env.sh.template ,并将复制的文件重命名为 spark-env.sh修改spark-env.sh 的内容为:export SCALA_

2021-05-24 18:52:17 1278

原创 hive中select count(distinct xx) from table 查询慢原因及优化

一.问题描述在hive中,如果数据量很大,select count(distinct xx) from table 有时会查询非常慢举例说明:表名:loan_trans数据量:551353635存储空间:52.93GBselect count(distinct id)from loan_transwhere etl_tx_dt =20200202number of mapper...

2020-02-03 22:59:09 5080

原创 hive中Common Join 和Map Join的机制(例子详解)

笼统的说,Hive中的Join可分为Common Join(Reduce阶段完成join)和Map Join(Map阶段完成join)。本文简单介绍一下两种join的原理和机制。一 .Hive Common Join如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join.整个过程包含Map、S...

2019-12-25 16:45:33 2227

原创 hive 内部表与外部表的区别

hive 内部表与外部表的区别内部表:建表时会在 hdfs 创建一个表的存储目录,增加分区的时候,会将数据复制到此location下,删除数据的时候,将表的数据和元数据一起删除。内部表数据由Hive自身管理外部表:一般会建立分区,增加分区的时候不会将数据移到此表的 location下,删除数据的时候,只删除了表的元数据信息,表的数据不会删除。外部表数据由HDFS管理举例:1.创建一个内部表...

2019-12-11 19:20:24 520

原创 left semi join 与join 的区别

LEFT SEMI JOIN:左半开连接会返回左边表的记录,前提是其记录对于右边表满足ON语句中的判定条件。对于常见的内连接(INNER JOIN),这是一个特殊的,优化了的情况。大多数的SQL方言会通过in.......exists结构来处理这种情况。准备表:create table dcx1107(id bigint);insert into dcx1107 values(-1)...

2018-11-07 17:56:10 13072 1

原创 hive窗口函数必备宝典

Hive中提供了越来越多的分析函数,用于完成负责的统计分析。我们先在一一列举,希望能够加深印象,希望大家积极讨论,如有不足,请大家多多指教。。。。1.Row_Number,Rank,Dense_Rank   这三个窗口函数的使用场景非常多  row_number():从1开始,按照顺序,生成分组内记录的序列,row_number()的值不会存在重复,当排序的值相同时,按照表中记录的顺序进行...

2018-11-06 17:24:40 28789 4

原创 hive的简单操作语句

**1.create table**1.1创建分区表create [external] table [if not exists] dcx1234(    cookieid string,    create_tiem STRING,    pv int) comment 'dcx1234表'partition by (dt string comment '日期分区字段(YYYYMM...

2018-10-17 14:13:10 890

OLAP引擎原理

OLAP引擎的底层运行原理,大数据OLAP引擎对比,相关大数据组件的简介及原理

2018-11-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除