![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 68
hive学习笔记
mizui_i
这个作者很懒,什么都没留下…
展开
-
Hive企业应用
一.数据仓库架构设计 简介 数据仓库的主要工作就是ETL,即是英文 Extract-Transform-Load 的缩写,用来描述数据从来源端经过装载(load)、抽取(extract)、转换(transform)至目的端的过程。数据仓库架构设计,即为公司针对自身业务场景实现的水平分层、垂直分主题的数据仓库构建过程的顶层设计。 数据架构 架构原则:先水平分层,再垂直分主题 数据仓库分层介绍(水平分层) 按主题划分(垂直分层) 二.数据仓库建模 概念 抽象的实体及实体..原创 2021-12-04 23:41:17 · 55 阅读 · 0 评论 -
Hive之MapJoin,数据倾斜,二次排序
一.MapJoin 概念 join本来是reduce进行关联查找,改成了map端进行关联查找 特点 减少了reduce的压力 减少了数据移动,提高了IO效率 应用场景 大表join小表 大数据块join小数据块 代码实现 hive中已经默认开启该功能 二.数据倾斜 概念 在大数据处理的过程中,出现数据分配不均匀,导致整体任务完成缓慢的现象 特点 分布式任务中,大部分任务均已完成,只有少部分卡在99%. 类似**木桶原理,**任务完成是时间取决于最后一个原创 2021-12-04 23:34:20 · 187 阅读 · 0 评论 -
Hive参数
一.hive参数 现在一般不手动配置hive参数,一般都使用默认的配置 只有极个别情况下的jvm内存相关参数设置需要特别指定 常见的hive参数如下 二.使用方式 通过配置文件 hive-site.xml hive-default.xml 在进入hive cli的时候指定配置 hive –hiveconf param=value来设定session级参数 进入到hive cli之后可以通过set进行设置 set tez.queue.name=oncourse;//设...原创 2021-12-04 23:32:31 · 91 阅读 · 0 评论 -
Hive自定义函数
UDF 全称:user define function 作用: in:out=1:1,只能输入一条记录,同时返回一条处理结果。 1.实现步骤 创建一个java类 继承UDF类 约定俗称的重写evaluate方法 打成jar包上传到hdfs中 在hive中 使用add jar 命令将jar包加入到classpath中 创建函数 create temporary function name ‘主类’; 使用函数 2.示例 完成一个将字符串加密成md5的函数 package com.ant原创 2021-12-04 23:30:33 · 85 阅读 · 0 评论 -
Hive基础应用
一.hive基础概念 1.数据模型 分区:按照表之外的虚拟字段将一个大表分成多个小表,例如按照年份进行分割 分桶:按照表中的真实字段的hash值将表进行分割 目的:都是为了提高数据处理的效率 2.数据类型 数值类型 日期类型 字符类型 varchar和char的联系 相同点 都是存储字符串的 不同点 varchar是变长,char是定长 应用场景 varchar一般用于用户名等长度不固定的数据存储 char一般用于手机号等定长的数据存..原创 2021-12-04 23:28:05 · 71 阅读 · 0 评论 -
hive常用命令及架构设计
一.常用命令 二.架构设计 从上图可以看出hive是处于应用层 hive中又可以分为两层 UI层和核心层 UI层 Hive CLI 命令行 Hive Client 客户端(编程语言操控) HWI(Hive Web Interface) web网页 Driver 这是一个驱动器,类似jdbc驱动 SQL Parser sql解析器,解析sql Query Optimizer 查询优化,优化查询语句 Excution 执行器 MetaStore 元数据库,存储数据.原创 2021-12-04 23:19:43 · 101 阅读 · 0 评论 -
hive概述
一.数据仓库概述 英文名称:Data Warehouse 面向分析的存储系统 数据仓库和数据库的对比 两者联系 两者都是存储数据的,都是数据的载体 数据仓库也是一种数据库,是数据库的一种衍生和拓展 数据仓库和数据库之间有数据交互 数据库中的在线数据推送到数据仓库中做离线的分析 数据仓库的数据处理结果也会推送到数据库中做前台页面的展示 数据仓库的出现并不是要取代数据库,而是各有各的作用,相辅相成,各有千秋 区别 数据库是面向事务设计的,数据仓库原创 2021-12-04 23:17:59 · 68 阅读 · 0 评论 -
Hive企业应用
一、数据仓库架构设计 数据仓库的主要工作就是ETL(Extract-Transform-Load) 用来描述数据从来源经过装载、抽取、转换到目的端的过程 数据仓库架构设计,即为公司针对自身业务场景实现的水平分层、垂直分主题的数据仓库构建过程的顶层设计。 1、数据架构 架构原则:先水平分层,再垂直分主题域 数据架构分三层: 源数据落地区(SDF:Source Data File) 数据仓库层(DW:Data WareHouse) 数据集市层(DM:Data Market) 数据仓库层进一步原创 2021-10-22 22:55:20 · 74 阅读 · 0 评论 -
hive基础
一.hive基础概念 1.数据模型 分区:按照表之外的虚拟字段将一个大表分成多个小表,例如按照年份进行分割 分桶:按照表中的真实字段的hash值将表进行分割 目的:都是为了提高数据处理的效率 2.数据类型 数值类型 日期类型 字符类型 varchar和char的联系 相同点 都是存储字符串的 不同点 varchar是变长,char是定长 应用场景 varchar一般用于用户名等长度不固定的数据存储 ...原创 2021-10-20 22:38:57 · 692 阅读 · 0 评论