hive
文章平均质量分 84
一个人的牛牛
一个人的牛牛,要么孤独,要么庸俗!踏踏实实从头开始!
展开
-
hive笔记(十):企业级调优-执行计划/本地模式/表的优化/合理的map、reduce数/并行执行/严格模式
(1)基本语法(2)案例1)查看下面这条语句的执行计划没有生成MR任务的有生成MR任务的2)查看详细执行计划没有生成MR任务的有生成MR任务的。企业级调优执行计划(explain)fetch抓取本地模式表的优化小表大表join(mapjoin)大表join大表group bycount(distinct)去重统计笛卡尔积行列过滤合理设置map及reduce数复杂文件增加map数小文件进行合并合理设置reduce数并行执行严格模式原创 2022-09-13 06:30:00 · 654 阅读 · 0 评论 -
hive笔记(九):压缩和存储-Hadoop压缩配置/map、reduce输出阶段压缩/文件存储格式/textfile、parquet、orc
Hadoop的编码/解码器压缩性能的比较注:Snappy的压缩速度和解压速度都非常快。开启map输出阶段压缩可以减job中map和Reduce task间数据传输量。当Hive将输出写入到表中时 , 输出内容可以进行压缩,属性hive.exec.compress.output控制着这个功能。用户保持默认设置中的默认值false,输出的就是非压缩的纯文本文件。用户可以通过在查询语句或执行脚本中设置这个值为true来开启输出结果压缩功能。原创 2022-09-12 06:00:00 · 604 阅读 · 0 评论 -
hive笔记八:自定义函数-自定义UDF函数/自定义UDTF函数
需求:自定义一个UDF函数实现计算字符串长度(1)创建maven工程(2)导入依赖(3)编写代码/*** 自定义UDF函数需要继承GenericUDF类* 需求:计算指定字符串的长度*//*** @objectInspectors 输入参数类型的鉴别器对象* @return 返回值类型的鉴别器类型对象*///判断输入参数的个数= 1) {!!");}//判断输入参数的类型if (!!!");}//函数本身返回值为int,需要返回int类型的鉴别器对象}原创 2022-09-11 05:30:00 · 1028 阅读 · 0 评论 -
hive:常用日期函数/常用取整函数/常用字符串操作函数/集合操作
unix_timestamp:返回当前或指定时间的时间戳from_unixtime:将时间戳转为日期格式current_date:当前日期current_timestamp:当前的日期加时间to_date:抽取日期部分year:获取年month:获取月day:获取日hour:获取时minute:获取分second:获取秒weekofyear:当前时间是一年中的第几周dayofmonth:当前时间是一个月中的第几天。原创 2022-09-09 10:00:00 · 616 阅读 · 0 评论 -
hive笔记(七):函数-内置函数/空字段赋值/行转列/列转行/窗口函数/Rank
(1)查看系统自带函数(2)显示自带函数的用法(3)详细显示自带函数的用法(1)说明赋值,它的格式是NVL(value,default_value)。功能是如果value为NULL,则NVL函数返回default_value的值,否则返回value的值,如果都为NULL ,则返回NULL。(2)准数据备查看前面内容!(3)查询NVL(value,default_value)1)comm为null,default_value为-1 2)comm为null,default_value为原创 2022-09-10 10:00:00 · 686 阅读 · 0 评论 -
hive笔记(六):分区表和分桶表-分区/二级分区/抽样查询/动态分区调整
分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定分区,这样的查询效率会提高很多。...原创 2022-08-28 10:00:00 · 849 阅读 · 0 评论 -
hive笔记(五):查询、排序-join语句/连接/分区/sort by/distribute by/cluster by
(2)测试distribute by要分配多个reducer进行处理,不然无法看到distribute by的效果;sort by:为每一个reducer产生一个排序文件,每个reducer内部进行排序,对全局结果集来说不是排序。(1)distribute by类似MR的自定义分区(partition)进行分区,结合sort by使用;根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称。对于大规模的数据集order by的效率较低,不需要全局排序;的个数进行模除后,余数相同的分到一个区。.原创 2022-08-26 09:39:35 · 894 阅读 · 0 评论 -
hive笔记(四):查询、分组-运算符/limit/where/like/rlike/group by/having
值大于等于B而且小于或等于C(C>=A>=B)则结果为TRUE,反之为FALSE;A不等于B则返回 TRUE,反之返回 FALSE。A小于等于B返回 TRUE,反之返回 FALSE。A大于等于B返回 TRUE,反之返回 FALSE。A小于B返回 TRUE,反之返回 FALSE。A和B都为NULL返回TRUE,一边为NULL返回 false。A不等于NULL返回TRUE,反之返回FALSE。A等于NULL返回TRUE,反之返回FALSE。A等于B返回TRUE,反之返回FALSE。...原创 2022-08-27 10:00:00 · 869 阅读 · 0 评论 -
hive笔记(三):DDL数据定义/DML数据操作-数据库、表、数据导入导出
(1)创建数据库test(普通)(2)创建数据库test(标准写法)(3)创建数据库test(指定数据在HDFS的存储位置)原创 2022-08-25 10:52:37 · 1336 阅读 · 0 评论 -
hive笔记(二):数据类型-基本数据类型/集合数据类型/类型转换
Hive的String类型相当于数据库的varchar类型,该类型是一个可变的字符串,理论上可以存储2GB的字符数。原创 2022-08-24 17:41:21 · 866 阅读 · 0 评论 -
hive笔记(一):hive概述-优点/缺点/构架原理/与数据库比较
Hive是基于Hadoop的一个数据仓库工具,由Facebook开源用于解决海量结构化日志,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。(1)hive的本质是将HQL转化成为MapReduce(2)hive分析数据底层的实现是MapReduce;(3)hive处理的数据存储在HDFS上;(4)执行程序运行在yarn上;原创 2022-08-22 11:26:12 · 866 阅读 · 0 评论 -
安装datagrip以及datagrip连接hive
介绍:DataGrip 出自JetBrains公司,是一款跨平台的数据库管理客户端工具,可在Windows,OS X 和 Linux上使用;同时支持多种数据库:SQL Server, Oracle, PostgreSQL, MySQL, DB2, Sybase, SQLite, Derby, HyperSQL和H2;方便连接到数据库服务器,执行sql、创建表、创建索引以及导出数据等。一、准备1.1下载安装datagrip官网:下载 DataGrip:适用于数据库和 SQL 的跨平..原创 2022-05-21 13:31:09 · 6330 阅读 · 3 评论 -
安装hive配置同步数据到MySQL(apache-hive-3.1.2-bin)
一.安装准备1.安装好MySQLLinux安装MySQL5.7(CentOS7)_一个人的牛牛的博客-CSDN博客2.下载安装包点击连接下载Index of /hive3.版本选择我安装的是apache-hive-3.1.2-bin版本!二.安装配置1.上传安装包用MobaXterm_Protable上传,MobaXterm_Protable是Windows和Linux之间的连接工具。MobaXterm_Portable的简单使用_一个人的牛牛...原创 2022-05-11 21:33:40 · 1350 阅读 · 0 评论 -
CentOS7安装hive(apache-hive-3.1.2-bin)
目录一.安装准备二.安装配置三.验证安装一.安装准备1.安装好MySQLLinux安装MySQL5.7(CentOS7)_一个人的牛牛的博客-CSDN博客2.下载安装包点击连接下载Index of /hive3.版本选择我安装的是apache-hive-3.1.2-bin版本!二.安装配置1.上传安装包用MobaXterm_Protable上传,MobaXterm_Protable是Windows和Linux之间的连接工具。M.原创 2022-03-12 12:00:30 · 3978 阅读 · 0 评论
分享