Hive
墨玉浮白
这个作者很懒,什么都没留下…
展开
-
Hive优化
一、优化可以从几个方面着手:1.Join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的jo...转载 2019-07-03 20:02:46 · 132 阅读 · 0 评论 -
Hive权限管理
一、3种授权模型1、Storage Based Authorization in the Metastore Server基于存储的授权(也就是HDFS的授权模型) - 可以对Metastore中的元数据进行保护,但是没有提供更加细粒度的访问控制(例如:列级别、行级别)。2、SQL Standards Based Authorization in HiveServer2(grant)基于S...原创 2019-06-29 12:41:31 · 1646 阅读 · 0 评论 -
Hive运行方式、gui
Hive运行模式:1.CLI命令行模式:控制台2.脚本运行模式:生产环境中使用3.JDBC方式:hiveserver24.web GUI接口:hwi、hue等。1. 交互① 和hdfs交互:执行dfs命令:dfs -ls /hive> dfs -cat /user/hive/warehouse/psnbucket/000000_0;8,scala,884,hive,4...原创 2019-06-29 12:31:01 · 372 阅读 · 0 评论 -
Hive Lateral View、视图、索引
一、Hive Lateral View1.Lateral View用于和UDTF函数(explode、split)结合来使用。2.首先通过UDTF函数拆分成多行,再将多行结果组合成一个支持别名的虚拟表。3.主要解决在select使用UDTF做查询过程中,查询只能包含单个UDTF,不能包含其他字段、以及多个UDTF的问题语法:LATERAL VIEW udtf(expression) ...原创 2019-06-29 12:22:56 · 563 阅读 · 0 评论 -
Hive Serde、Beeline、JDBC
一、Hive Serde用于做序列化和反序列化,构建在数据存储和执行引擎之间,对二者实现解耦。创建表的2种规则row format:delimited和serde,正则匹配创建表:CREATE TABLE logtbl ( host STRING, identity STRING, t_user STRING, time STRING, reques...原创 2019-06-29 12:06:00 · 274 阅读 · 0 评论 -
Hive函数
如果想知道一个函数的使用, 使用 desc function funNamehive> desc function upper;OKupper(str) - Returns str with all characters changed to uppercaseTime taken: 0.008 seconds, Fetched: 1 row(s)hive> 一、数据函...原创 2019-06-29 16:30:01 · 332 阅读 · 0 评论 -
Hive分桶
一、分桶分桶是用来操作文件的,将一个目录下的文件,划分为多个目录,粒度更细了。1.分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储(join的时候能有效的避免全表扫描)。2.对于hive中每一个表、分区都可以进一步进行分桶。3.由列的哈希值除以桶的个数来决定每条数据划分在哪个桶中。适用场景:数据抽样sampling、map-join二、开启分桶支持set hive.enfo...原创 2019-06-29 11:43:59 · 720 阅读 · 0 评论 -
Hive参数
1. hive中的参数、变量都是以命名空间开头hiveconf等同于配置文件的属性,只不过在配置文件中配置是永久有效,配置hiveconf只在当前会话有效。打印表头配置完hiveconf后,查询就有了wcjg.word 和wcjg.ct。退出hive,再进入,查询wc表,就没有wc.line了。2.hive参数的设置方式1.修改配置文件 ${HIVE_HOME}/conf/hive-s...原创 2019-06-29 10:54:03 · 1847 阅读 · 0 评论 -
Hive分区
文章目录一、静态分区1.1 接1个分区1.2 接多个分区1.3 删除、添加分区操作二、动态分区2.1设置支持动态分区:2.2设置非严格模式:2.3相关参数一、静态分区创建表的时候的PARTITIONED BY…partitioned就是分区。分区达到的效果就是:若以age作为一个分区,age=10就会创建一个子目录,age=10的数据全部放入“age=10”的目录下。分区的好处:查询更快了...原创 2019-06-29 10:45:42 · 274 阅读 · 0 评论 -
Hive基本操作
文章目录一、Hive的数据类型二、内部表和外部表2.1 内部表2.2 外部表2.3 内部表和外部表的区别一、Hive的数据类型Hive的数据类型主要有以下几种:primitive_type| array_type 数组| map_type K:V| struct_type 结构体:primitive_type|TINYINT| SMALLINT| INT| BIGINT...原创 2019-06-29 10:15:36 · 303 阅读 · 0 评论 -
Hive安装搭建
文章目录一、Hive3种安装方式1.local模式2.单用户模式3.远程服务器/多用户模式二、单用户模式搭建2.1 mysql安装2.2 单节点Hive部署2.3 测试三、多用户模式搭建3.1 配置服务端3.2 配置客户端3.3 测试一、Hive3种安装方式3种模式划分的依据:根据元数据的存放、管理。1存放在内置的数据库,hive自身管理。2.存放单独数据库,hive自身管理。3管理单独抽取出...原创 2019-06-29 09:58:31 · 299 阅读 · 0 评论 -
Hive优化
核心思想:把Hive SQL当成MR程序去优化!个例:也有SQL不会转换为MR执行:1、select仅查询本表字段2、where仅对本表字段做条件过滤SQL具体都转换为哪些的MR? Explain显示执行计划hive> explain select * from wc;OKExplainSTAGE DEPENDENCIES: Stage-0 is a root sta...原创 2019-06-29 12:53:33 · 200 阅读 · 0 评论
分享