Hive
文章平均质量分 80
夏至&未至
后台开发,前端瞎倒腾,py爱好者,机器学习中...
展开
-
(二)Hive安装
(二)Hive安装目录Hive的下载 Hive的安装 1、本人使用MySQL做为Hive的元数据库,所以先安装MySQL。 2、上传Hive安装包 3、解压安装包 4、修改配置文件 5、 一定要记得加入 MySQL 驱动包(mysql-connector-java-5.1.40-bin.jar)该 jar 包放置在 hive 的根路径下的 lib 目录 6、 安...转载 2018-10-28 08:58:46 · 905 阅读 · 0 评论 -
(十五)Hive 执行过程实例分析
目录一、Hive 执行过程概述1、概述2、Hive 操作符列表3、Hive 编译器的工作职责4、优化器类型二、join1、对于 join 操作2、实现过程3、具体实现过程三、Group By1、对于 group by操作2、实现过程四、Distinct1、对于 distinct的操作2、实现过程3、详细过程解释正文一、Hive...转载 2018-12-25 10:41:11 · 1126 阅读 · 0 评论 -
(十四)Hive的数据倾斜
目录1、什么是数据倾斜?2、Hadoop 框架的特性3、主要表现4、容易数据倾斜情况5、产生数据倾斜的原因6、业务场景(1)空值产生的数据倾斜(2)不同数据类型关联产生数据倾斜(3)大小表关联查询产生数据倾斜 正文1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点2、Hadoop 框架的特性 A、不怕数据大,怕数...转载 2018-12-18 11:47:48 · 1249 阅读 · 0 评论 -
(十三)Hive的Shell操作
目录一、Hive的命令行1、Hive支持的一些命令2、语法结构3、示例二、Hive的参数配置方式1、Hive的参数配置大全2、Hive的参数设置方式正文一、Hive的命令行1、Hive支持的一些命令Command Descriptionquit Use quit or exit to leave the interactive shell....转载 2018-12-18 11:02:32 · 1252 阅读 · 0 评论 -
(十二)Hive分析窗口函数(三) CUME_DIST和PERCENT_RANK
目录数据准备数据格式创建表玩一玩CUME_DIST说明查询语句查询结果 结果说明玩一玩PERCENT_RANK说明查询语句查询结果结果说明正文 这两个序列分析函数不是很常用,这里也练习一下。 数据准备数据格式cookie3.txtd1,user1,1000d1,user2,2000d1,user3,3000...转载 2018-12-17 15:17:18 · 1564 阅读 · 0 评论 -
(十一)Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
目录概述数据准备数据格式创建表玩一玩NTILE说明查询语句查询结果比如,统计一个cookie,pv数最多的前1/3的天玩一玩ROW_NUMBER说明分组排序查询结果玩一玩RANK 和 DENSE_RANK查询语句查询结果ROW_NUMBER、RANK和DENSE_RANK的区别 正文概述本文中介绍前几个序列函数,N...转载 2018-12-17 14:16:30 · 702 阅读 · 0 评论 -
(十)Hive分析窗口函数(一) SUM,AVG,MIN,MAX
目录 数据准备 数据格式 创建数据库及表 玩一玩SUM 查询语句 查询结果 说明 玩一玩AVG 查询语句 查询结果 玩一玩MIN 查询语句 查询结果 玩一玩MAX 查询语句 查询结果 正文数据准备数据格式cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2...转载 2018-12-17 10:59:04 · 1117 阅读 · 0 评论 -
(九)Hive的5个面试题
(九)Hive的5个面试题目录一、求单月访问次数和总访问次数 1、数据说明 2、数据准备 3、结果需求 4、需求分析 二、学生课程成绩 1、说明 2、需求 三、求每一年最大气温的那一天 + 温度 1、说明 2、 需求 3、解析 四、求学生选课情况 1、数据说明 2、数据准备 3、需求 4、解析 五、求月销售额和总销售额...转载 2018-10-30 21:20:55 · 2630 阅读 · 3 评论 -
(八)Hive中文乱码
(八)Hive中文乱码目录Hive注释中文乱码 针对元数据库metastore中的表,分区,视图的编码设置 1、进入数据库 Metastore 中执行以下 5 条 SQL 语句 2、修改 metastore 的连接 URL 验证 正文回到顶部Hive注释中文乱码创建表的时候,comment说明字段包含中文,表成功创建成功之后,中文说明显示乱码 ...转载 2018-10-30 21:01:19 · 1340 阅读 · 0 评论 -
(七)Hive的DDL操作
(七)Hive的DDL操作目录1、创建库 语法结构 创建库的方式 2、查看库 查看库的方式 3、删除库 说明 示例 4、切换库 语法 示例 1、创建表 语法 示例 2、查看表 (1)查看表列表 (2)查看表的详细信息 查看表的信息 (3)查看表的详细建表语句 3、修改表 (1)修改表名 (2)修改字段定...转载 2018-10-30 20:43:14 · 647 阅读 · 0 评论 -
(六)Hive SQL之数据类型和存储格式
(六)Hive SQL之数据类型和存储格式 目录一、数据类型 1、基本数据类型 2、复杂类型 二、存储格式 (1)textfile (2)SequenceFile (3)RCFile (4)ORCFile (5)Parquet 三、数据格式 正文回到顶部一、数据类型1、基本数据类型Hive 支持关系型数据中大...转载 2018-10-30 20:22:35 · 771 阅读 · 0 评论 -
(一)Hive初识
Hive学习之路 (一)Hive初识目录Hive 简介 什么是Hive 为什么使用 Hive Hive 特点 Hive 和 RDBMS 的对比 Hive的架构 1、用户接口: shell/CLI, jdbc/odbc, webui Command Line Interface 2、跨语言服务 : thrift server 提供了一种能力,让用户可以使用多种...转载 2018-10-27 22:19:14 · 2830 阅读 · 0 评论 -
DbVisualizer配置连接hive
(五)DbVisualizer配置连接hive 目录一、安装DbVisualizer 二、配置DbVisualizer里的hive jdbc 1、在DbVisualizer的安装目录jdbc文件夹下新建hive文件夹 2、拷贝Hadoop的相关jar包放入新建的hive文件夹里面 3、拷贝Hive的相关jar包放入新建的hive文件夹里面 4、结果 5、在too...转载 2018-10-29 23:21:58 · 4424 阅读 · 0 评论 -
HIVE常见问题集锦
1. 缺少MySQL驱动包1.1 问题描述 Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPAT...转载 2018-10-29 21:42:54 · 4254 阅读 · 0 评论 -
(4.1)搭建HWI(HiveWebInterface)步骤总结
搭建HWI(HiveWebInterface)步骤总结 众所周知,Hive有三种使用方式:CLI、HWI浏览器、Thrift客户端。安装配置完Hive后无需进行额外操作即可使用CLI。但是HWI则需要单独搭建。本文主要记录我自己搭建HWI的过程。 说明:本文主要介绍HWI的安装,后续会完成下面两篇博文:HWI的介绍 HWI的使用 本博主主要是记录自己的学习内容,有哪些理解不到...转载 2018-10-28 23:50:08 · 775 阅读 · 0 评论 -
(四)Hive的连接3种连接方式
(四)Hive的连接3种连接方式 目录一、CLI连接 二、HiveServer2/beeline 1、修改 hadoop 集群的 hdfs-site.xml 配置文件 2、修改 hadoop 集群的 core-site.xml 配置文件 三、Web UI 正文回到顶部一、CLI连接进入到 bin 目录下,直接输入命令: [hadoop@ha...转载 2018-10-28 23:48:37 · 4253 阅读 · 0 评论 -
(三)Hive元数据信息对应MySQL数据库表
(三)Hive元数据信息对应MySQL数据库表 目录概述 一、存储Hive版本的元数据表(VERSION) 二、Hive数据库相关的元数据表(DBS、DATABASE_PARAMS) 1、DBS 2、DATABASE_PARAMS 三、Hive表和视图相关的元数据表 1、TBLS 2、TABLE_PARAMS 3、TBL_PRIVS 四、Hive文...转载 2018-10-28 18:54:58 · 754 阅读 · 0 评论 -
(十六)Hive 优化策略
正文 一、Hadoop 框架计算特性1、数据量大不是问题,数据倾斜是个问题2、jobs 数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次 汇总,产生十几个 jobs,耗时很长。原因是 map reduce 作业初始化的时间是比较长的3、sum,count,max,min 等 UDAF,不怕数据倾斜问题,hadoop 在 map 端的汇总合并优化,使 数据...转载 2018-12-25 10:49:12 · 1089 阅读 · 0 评论