Hive
0918L
CRUD
展开
-
HIve调优
目录Fetch抓取(Hive可以避免进行MapReduce)本地模式Group ByCount(distinct)笛卡尔积使用分区剪裁、列剪裁动态分区调整数据倾斜Map数如何适当的增加map数reduce数并行执行严格模式JVM重用推测执行表的优化JoinMapJoinFetch抓取(Hive可以避免进行MapRe...原创 2019-12-12 16:02:59 · 17874 阅读 · 0 评论 -
Hive的数据压缩与数据存储
目录一、hive的数据压缩MR支持的压缩编码压缩配置参数开启Map输出阶段压缩开启Reduce输出阶段压缩二、hive的数据存储格式列式存储和行式存储TEXTFILE格式ORC格式PARQUET格式三、存储和压缩结合一、hive的数据压缩在实际工作当中,hive当中处理的数据,一般都需要经过压缩,前期我们在学习hadoop的时候,已经配置过ha...原创 2019-12-12 15:22:01 · 17748 阅读 · 2 评论 -
Hive用户自定义函数
一、UDF1.什么是 UDF?1. 当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF: user-defined function)2.UDF 开发步骤1.新建 JAVA Maven 项目,pom文件中添加 hive-exec-1.1.0.jar 和 hadoop-common-2.6.0.jar 依赖上述代码↓↓↓ <re...原创 2019-12-04 10:03:20 · 18269 阅读 · 1 评论 -
HIVE的安装部署与环境变量的配置
HIVE的安装部署第一步:上传hive-1.1.0-cdh5.14.0.tar.gz第二步:进行解压cd /export/softwarestar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C ../servers/ 从节点安装mysql(使用yum源进行安装,强烈推荐)**第一步:在线安装mysql相关的软件包yum install mysql ...原创 2019-11-20 10:24:27 · 20642 阅读 · 4 评论 -
Hive基本概念
Hive简介什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。Hive可以对数据进行存储与计算数据存储依赖于HDFS数据计算依赖于MapRedu...原创 2019-11-20 09:55:40 · 19819 阅读 · 1 评论