![](https://img-blog.csdnimg.cn/d01c42852cbc4166b3a2df1960d1495c.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hive
文章平均质量分 81
大数据之Hive
MelodyYN
实践
展开
-
Hive是什么?
Hive是什么? 缘由 由于Mysql数据库存储能力的限制,因此发展而来的Hive可以将数据存储于HDFS上以解决该问题。 简介 Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能 本质:将HQL转化成MapReduce程序 Hive处理的数据存储在HDFS Hive分析数据底层的实现是MapReduce 执行程序运行在Yarn上 优点 操作接口采原创 2021-12-20 20:34:50 · 1236 阅读 · 0 评论 -
Hive安装部署
文章目录Hive安装部署1.Hadoop配置文件修改2.安装Hive3.启动并使用Hive4.安装Mysql5.将元数据配置到Mysql6.使用元数据服务的方式访问Hive7.使用JDBC方式访问Hive8. Hive常见属性配置(修改配置需要先关两个hive服务)8.1 Hive运行日志信息配置8.2 Hive启动jvm堆内存设置8.3 打印当前库和表头8.4 参数配置方式 Hive安装部署 1.Hadoop配置文件修改 core-site.xml <!-- 配置该hadoop(superUse原创 2021-12-20 22:42:45 · 717 阅读 · 0 评论 -
Hive中的数据类型
文章目录Hive数据类型1、 Hive、mysql、Java数据类型对比2、 集合数据类型案例3、 类型转换 Hive数据类型 1、 Hive、mysql、Java数据类型对比 HIVE MySQL JAVA 长度 例子 TINYINT TINYINT byte 1byte有符号整数 2 SMALINT SMALINT short 2byte有符号整数 20 INT INT int 4byte有符号整数 20 BIGINT BIGINT long 8byte有符号整数 20原创 2021-12-23 14:06:52 · 82 阅读 · 0 评论 -
Hive中DDL数据定义语言
文章目录Hive中DDL数据定义语言1、数据库2、表2.1管理表(内部表)2.2 外部表2.3 内部表与外部表的转换2.4 修改表 Hive中DDL数据定义语言 1、数据库 1.创建数据库格式: create database [if not exists] database_name [comment database_comment] [location hdfs_path] --数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db [with dbpropeties(p原创 2021-12-23 15:03:01 · 1017 阅读 · 0 评论 -
Hive中DML数据操作语言
文章目录Hive中DML数据操作语言1、数据导入1.1 向表中装载数据1.2 通过查询语句向表中插入数据(Insert)1.3 查询语句中创建表并加载数据(As Select)1.4 创建表时通过Location指定加载数据路径1.5 Import数据到指定Hive表中2、数据导出2.1 Insert导出2.2 Hadoop命令导出到本地2.3 Hive Shell命令导出2.4 Export导出到HDFS Hive中DML数据操作语言 1、数据导入 1.1 向表中装载数据 load data [local原创 2021-12-23 15:33:20 · 130 阅读 · 0 评论 -
分区表和分桶表
1、分区表 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。 创建表: create table dept_partition( deptno int,dname string, loc string ) partitioned by (day string) row format deli原创 2021-12-23 23:18:50 · 476 阅读 · 0 评论 -
内置函数、行列转换、窗口函数
文章目录内置函数、行列转换、窗口函数1、常用系统内置函数1.1 常用日期函数1.2 常用取整函数1.3 常用字符串操作函数1.4 集合操作2、行转列、列转行2.1 空字段赋值2.2 CASE WHEN THEN ELSE END2.3 行转列2.4 列转行3、窗口函数3.1 哪些函数才能叫做窗口函数3.2 窗口函数的语法3.3 执行顺序3.4 窗口子句案例:overlag、leadfirst_value、last_valuentilerank、dense_rank row_number 内置函数、行列转换、原创 2021-12-24 19:16:04 · 265 阅读 · 0 评论 -
自定义UDF函数
自定义UDF函数 需求:自定义一个UDF实现计算给定基本数据类型的长度 1、创建Maven工程导入依赖 <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version> </dependency>原创 2021-12-24 20:00:22 · 782 阅读 · 0 评论 -
Hive中的文件格式与压缩存储
文章目录Hive中的压缩1、Hadoop压缩配置1.1 MR支持的压缩编码1.2 压缩参数配置2、开启你Map输出阶段压缩(MR引擎)3、开启你Reduce输出阶段压缩Hive中的存储1、文件存储格式2、行式存储和列式存储TextFile格式Orc格式主流文件存储格式实验默认存储格式和不带压缩ORC存储格式和不带压缩ORC存储格式和Snappy压缩总结 Hive中的压缩 1、Hadoop压缩配置 1.1 MR支持的压缩编码 压缩格式 算法 文件扩展名 是否可切分 DEFLATE DEFLAT原创 2021-12-30 09:49:01 · 123 阅读 · 0 评论 -
Hive中的多种优化方案
文章目录企业级优化1、Fetch抓取2、本地模式3、执行计划4、表的优化4.1 小表大表join4.2 大表join大表空key过滤空key转换Sort Merge Bucket join(SMB)4.3 MapJoin4.4 Group by4.5 Count(Distinct) 去重统计4.6 行列过滤5、合理设置Map和Reduce数5.1 复杂文件增加Map数5.2 小文件合并5.3 合理设置Reduce数6、并行执行7、严格模式7.1 分区表不适用分区过滤7.2 使用order by没有limit原创 2021-12-30 14:26:11 · 750 阅读 · 0 评论 -
Hive实战训练
文章目录Hive实战1、观察数据建表1.1 建立外表题目:1、统计视频观看数Top102、统计视频类别热度Top10(类别热度:类别下的总视频数)3、统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数4、统计视频观看数Top50所关联视频的所属类别排序5、统计每个类别中的视频热度(视频观看数)Top10,以Music为例6、统计每个类别视频观看数Top107、统计上传视频最多的用户Top10以及他们上传的视频观看次数在前20的视频 Hive实战 数据 视频表 字段 备注原创 2021-12-30 14:30:03 · 348 阅读 · 0 评论