hive
文章平均质量分 89
hive系列文章
浪尖聊大数据-浪尖
弓重好:浪尖聊大数据,主要分享大数据架构基础到入门的文章。
展开
-
漫谈千亿级数据优化实践:数据倾斜
0x00 前言数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。迈的过去,将会海阔天空!迈不过去,就要做好准备:很...转载 2021-01-07 18:00:00 · 174 阅读 · 0 评论 -
硬核干货 | 基于Impala的网易有数BI查询优化总结
本文总结了Impala在网易有数BI应用场景下的最新查询优化经验,并探讨后续进一步优化的思路。文章首先简述有数BI + Impala在网易云音乐等业务使用时遇到的挑战,再介绍进行有数查询优...转载 2021-03-02 17:40:00 · 893 阅读 · 0 评论 -
Clickhouse的实践之路
导读在数据量日益增长的当下,传统数据库的查询性能已满足不了我们的业务需求。而Clickhouse在OLAP领域的快速崛起引起了我们的注意,于是我们引入Clickhouse并不断优化系统性能...转载 2021-02-16 19:00:21 · 1126 阅读 · 0 评论 -
基于Flink打造实时计算平台为企业赋能
本文是清香白莲在知乎的分享,很有借鉴意义,分享给大家。原文地址:https://zhuanlan.zhihu.com/p/143169143随着互联网技术的广泛使用,信息的实时性对业务的...转载 2020-12-31 08:30:00 · 662 阅读 · 0 评论 -
大数据OLAP系统(2)——开源组件篇
转自:https://www.jianshu.com/p/4b3bcbabad77开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引...转载 2020-12-22 08:30:00 · 765 阅读 · 0 评论 -
大数据开源框架技术汇总
主要基于对现阶段一些常用的大数据开源框架技术的整理,只是一些简单的介绍,并不是详细技术梳理。可能会有疏漏,发现再整理。参考的太多,就不一一列出来了。这只是作为一个梳理,对以后选型或者扩展...转载 2020-10-25 09:38:32 · 3244 阅读 · 1 评论 -
基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数据。在互联网企业中,常见的ODS数据有业务日志数据(Log)和业...转载 2020-09-06 22:50:18 · 596 阅读 · 0 评论 -
Flink SQL FileSystem Connector 分区提交与自定义小文件合并策略
之前笔者在介绍 Flink 1.11 Hive Streaming 新特性时提到过,Flink SQL 的 FileSystem Connector 为了与 Flink-Hive 集成的...转载 2020-08-22 23:02:39 · 401 阅读 · 1 评论 -
Flink 1.11:更好用的流批一体 SQL 引擎
许多的数据科学家,分析师和 BI 用户依赖交互式 SQL 查询分析数据。Flink SQL 是 Flink 的核心模块之一。作为一个分布式的 SQL 查询引擎。Flink SQL 提供了...转载 2020-07-28 23:04:11 · 525 阅读 · 0 评论 -
五分钟系列 | Hive中的count(distinct)优化
来源:http://suo.im/6pkTWU问题描述COUNT(DISTINCT xxx)在hive中很容易造成数据倾斜。针对这一情况,网上已有很多优化方法,这里不再赘述。但有时,“...转载 2020-07-01 22:22:46 · 578 阅读 · 0 评论 -
简单明了!OLTP场景下的数据分布式设计原则
作者介绍温卫斌,就职于中国民生银行信息科技部,目前负责分布式技术平台设计与研发,主要关注分布式数据相关领域。前言最近几年做分布式项目,很多工作是关于OLTP(联机交易系统)场景下数据分布...转载 2020-05-03 00:08:05 · 456 阅读 · 0 评论 -
fs.defaultFS 变更,使spark-sql 查询hive失败原因分析
这个是粉丝投稿,很有价值,浪尖在这里给大家分享一下,也使得后面有粉丝遇到相同的问题,可以快速的解决,节省时间。我们在将hdfs换成⾼可⽤后,我们的namede地址发⽣变更,也就是我们的f...原创 2020-05-01 00:03:47 · 922 阅读 · 0 评论 -
Spark SQL的Parquet那些事儿
Parquet是一种列式存储格式,很多种处理引擎都支持这种存储格式,也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件,并且对par...原创 2019-05-27 20:07:12 · 2902 阅读 · 0 评论 -
SparkStreaming如何解决小文件问题
使用sparkstreaming时,如果实时计算结果要写入到HDFS,那么不可避免的会遇到一个问题,那就是在默认情况下会产生非常多的小文件,这是由sparkstreami...原创 2019-04-21 22:11:53 · 744 阅读 · 0 评论 -
开发人员不得不知的MySQL索引和查询优化
“本文主要总结了工作中一些常用的操作及不合理的操作,在对慢查询进行优化时收集的一些有用的资料和信息,本文适合有 MySQL 基础的开发人员。索引相关索引基数基数是数据列所...转载 2019-04-20 21:54:09 · 251 阅读 · 0 评论 -
Hive学习之Lateral View
Lateral view与UDTF函数如explode()一起使用,UDTF对每个输入行产生0或者多个输出行。Lateral view首先在基表的每个输入行应用UDTF,...转载 2018-10-16 00:03:38 · 1909 阅读 · 1 评论 -
复习 | HIVE 随机采样②
前面一篇文章,三种采样机制的其中一种复习:聊聊hive随机采样①今天将剩下的两种,分桶采样和数据块采样。当数据量特别大时,对全体数据进行处理存在困难时,抽样就显得尤其重要...转载 2018-08-30 00:00:00 · 514 阅读 · 0 评论 -
复习:聊聊hive随机采样①
数据量大的时候,对数据进行采样,然后再做模型分析。作为数据仓库的必备品hive,我们如何对其进行采样呢?当然,浪尖写本文还有另一个目的就是复习hive的四by。不止是否有...原创 2018-08-28 00:01:02 · 6220 阅读 · 2 评论 -
深入理解Apache Flink核心技术
Apache Flink(下简称Flink)项目是大数据处理领域最近冉冉升起的一颗新星,其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的...转载 2018-04-26 00:00:00 · 792 阅读 · 0 评论 -
数据仓库②-数据仓库与数据集市建模
前言数据仓库建模包含了几种数据建模技术,除了之前在数据库系列中介绍过的ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。本文将详细介绍数据仓库维度建模技术,并重点讨论三种基于ER建模/关系建模/维度建模的数据仓库总体建模体系:规范化数据仓库,维度建模数据仓库,以及独立数据集市。维度建模的基本概念维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建转载 2018-03-02 00:00:00 · 1463 阅读 · 0 评论 -
hive的分区和分桶
本文转载自CSDN:http://blog.csdn.net/wl1411956542/article/details/52931499由于不知道作者详细信息,文章作者暂时用其ID。1、Hive分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。分区表指的是在创建表时指定的partit转载 2018-01-12 00:00:00 · 1760 阅读 · 0 评论 -
打工人必备:Hive小文件合并与数据压缩
Hive仓库表数据最终是存储在HDFS上,由于Hadoop的特性,对大文件的处理非常高效。而且大文件可以减少文件元数据信息,减轻NameNode的存储压力。但是在数据仓库中,越是上层的表汇...转载 2021-02-24 09:00:00 · 564 阅读 · 0 评论 -
SQL on Hadoop性能对比-Hive、Spark SQL、Impala
1三种语言、三套工具、三个架构 不了解SQL on Hadoop三驾马车-Hive、Spark SQL、Impala吗?听小...转载 2021-02-13 08:19:07 · 1209 阅读 · 0 评论 -
Hive SQL50道练习题
建表create table student(s_id string,s_name string,s_birth string,s_sex string) row format deli...转载 2020-12-23 08:52:40 · 888 阅读 · 1 评论 -
Flink 1.11中对接Hive新特性及如何构建数仓体系
分享嘉宾:李锐 阿里巴巴 技术专家编辑整理:马小宝出品平台:DataFunTalk导读:Flink从1.9.0开始提供与Hive集成的功能,随着几个版本的迭代,在最新的Flink 1.1...转载 2020-12-09 11:45:00 · 263 阅读 · 1 评论 -
面试|不可不知的十大Hive调优技巧最佳实践
Apache Hive是建立在Apache Hadoop之上的数据仓库软件项目,用于提供数据查询和分析。Hive是Hadoop在HDFS上的SQL接口,它提供了类似于SQL的接口来查询存...转载 2020-11-18 09:00:00 · 729 阅读 · 0 评论 -
Hive on Spark参数调优姿势小结
前言Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎,在HIVE-7292提出。Hive on Spark的效率比on MR要高不少,但是也需...转载 2020-09-10 22:25:55 · 945 阅读 · 0 评论 -
元数据管理|Hive Hooks和Metastore监听器介绍
元数据管理是数据仓库的核心,它不仅定义了数据仓库有什么,还指明了数据仓库中数据的内容和位置,刻画了数据的提取和转换规则,存储了与数据仓库主题有关的各种商业信息。本文主要介绍Hive Ho...转载 2020-08-29 22:45:19 · 1003 阅读 · 2 评论 -
详解hive的join优化
hive Optimizer的改进注意,本文讨论的hive join优化器是从hive 0.11.0版本起添加的,本文描述了Hive查询执行计划的优化,以提高join效率并减少对用户提示...原创 2020-08-05 21:54:29 · 624 阅读 · 0 评论 -
HiveSQL常用优化方法全面总结
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合...转载 2020-08-02 23:06:22 · 310 阅读 · 0 评论 -
Hive实现数据抽样的三种方法
在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作。Hive提供了数据取样(SAMPLI...转载 2020-07-12 22:00:00 · 778 阅读 · 0 评论 -
Apache Flink 与 Apache Hive 的集成
分享嘉宾:李锐&王刚 @ 阿里巴巴编辑整理:于广超内容来源:FlinkForward ASIA出品平台:DataFun注:欢迎转载,转载请留言。导读:随着 Flink 在流式...转载 2020-04-29 00:02:30 · 473 阅读 · 0 评论 -
戳破 | hive on spark 调优点
微信交流群里有人问浪尖hive on spark如何调优,当时浪尖时间忙没时间回答,这里就给出一篇文章详细聊聊。强调一下资源设置调优,这个强经验性质的,这里给出的数值比例...原创 2019-04-08 23:42:12 · 3991 阅读 · 1 评论 -
Hive高级优化 | 面试及调优必读
1,FetchTask不执行mapreduce,提高速度 设置的三种方式: 方法一:set hive.fetch.task.conversion=more;方法二:bin...原创 2019-03-21 23:03:18 · 956 阅读 · 0 评论 -
Hive性能优化(全面)
1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对比较低,比如即使有几百...转载 2019-03-10 23:45:12 · 625 阅读 · 0 评论 -
hive的join优化
“国际大学生节”又称“世界大学生节”、“世界学生日”、“国际学生日”。1946年,世界各国学生代表于布拉格召开全世界学生大会,宣布把每年的11月17日定为“世界大学生节”...原创 2018-09-02 00:16:14 · 838 阅读 · 0 评论 -
Hive鲜为人知的宝石-Hooks
本来想祝大家节日快乐,哎,无奈浪尖还在写文章。谴责一下,那些今天不学习的人。对于今天入星球的人,今天调低了一点价格。减少了20大洋。机不可失失不再来。点击阅读原文或者扫底...转载 2018-08-18 07:02:36 · 8346 阅读 · 4 评论 -
重要 | mr使用hcatalog读写hive表
企业中,由于领导们的要求,hive中有数据存储格式很多时候是会变的,比如为了优化将tsv,csv格式改为了parquet或者orcfile。那么这个时候假如是mr作业读取...原创 2018-08-16 00:00:00 · 3147 阅读 · 4 评论 -
浪尖,请问如何确定hive分桶数?
今日,有人在星球问了一个比较好的问题:浪尖,请问如何确定hive的分桶数呢?关于这个问题,浪尖想写个文章,谈谈我自己的看法,当然也欢迎有经验的同学么留言。顺便打个广告,更...原创 2018-08-01 00:11:36 · 2811 阅读 · 0 评论 -
重磅:关于hive的join使用必须了解的事情
Hive支持连接表的以下语法:本文主要讲hive的join编写连接查询时要考虑的一些要点如下,不同版本支持的情况可能会有些许不同:1,可以编写复杂的链接表达式,如下SELECT a.* FROM a JOIN b ON (a.id = b.id)SELECT a.* FROM a JOIN b ON (a.id = b.id AND a.department = b.department)SELE原创 2018-01-25 00:00:00 · 7043 阅读 · 0 评论