Hive
程序员学习圈
值得去的地方,没有捷径;难走的路,才更值得开始!
展开
-
4 步搞定 Hive 增量更新
Hive 的更新很有趣。Hive 的表有两种,一种是 managed table, 一种是 external table.managed table 是 Hive 自动帮我们维护的表,自动分割底层存储文件,自动分区,这些自动化的操作,都是 Hive 封装了与 Hadoop 交互的接口。external table 只是一种在 Hive 维护的与外部文件的映射。managed tab...原创 2020-05-01 14:36:10 · 2686 阅读 · 1 评论 -
Hive 特殊函数使用技巧
1.Hive中if函数和Mysql中ifnull的转换 在mysql中,ifnull函数的用法,其表达式如下:IFNULL(expr1,expr2),如果 expr1 不是 NULL,IFNULL() 返回 expr1,否则它返回 expr2。IFNULL()返回一个数字或字符串值,取决于它被使用的上下文环境。 举个应用场景,比如某一个字段定义为int类型,其默认值为0,但是在sq...原创 2020-05-01 14:22:53 · 638 阅读 · 0 评论 -
Hive运行引擎Tez
Tez是一个Hive的运行引擎,性能优于MR。为什么优于MR呢?看下图。 用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到HDFS。 Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能。1.安装包准备1.1 下...原创 2020-05-01 14:20:41 · 1278 阅读 · 0 评论 -
使用Hive读写ElasticSearch中的数据
1.通过sqoop使mysql和hive的数据进行同步: https://download.csdn.net/download/luomingkui1109/106676582.数据的全量与增量 https://blog.csdn.net/wujiandao/article/details/80413661...原创 2018-12-17 16:52:58 · 301 阅读 · 0 评论 -
Hive下查看表占用空间大小的方法
1.在mysql中,ifnull函数的用法,其表达式如下: IFNULL(expr1,expr2) 如果 expr1 不是 NULL,IFNULL() 返回 expr1,否则它返回 expr2。IFNULL()返回一个数字或字符串值,取决于它被使用的上下文环境。 举个应用场景,比如某一个字段定义为int类型,其默认值为0,但是在sql查询过程中,有可能出现为null,...原创 2018-12-17 16:51:41 · 4804 阅读 · 1 评论 -
hive 的row_number()、rank()和dense_rank()的区别以及具体使用
本文将介绍如何通过Hive来读取ElasticSearch中的数据,然后我们可以像操作其他正常Hive表一样,使用Hive来直接操作ElasticSearch中的数据,将极大的方便开发人员。本文使用的各组件版本分别为 Hive2.3.3、HDFS2.7.2、ElasticSearch 6.3.0。0.ElasticSearch中已有的数据"_index":"contract_in...原创 2018-08-31 10:09:19 · 469 阅读 · 0 评论 -
Hive 小练习
一、Hive下查看数据表信息的方法方法1:查看表的字段信息desc table_name;方法2:查看表的字段信息及元数据存储路径desc extended table_name;方法3:查看表的字段信息及元数据存储路径desc formatted table_name;备注:查看表元数据存储路径是,推荐方法3,信息比较清晰。hive> desc dept_...原创 2018-08-31 08:35:57 · 4707 阅读 · 0 评论 -
Hive 调优
1.日志的格式如下: pin|-|request_tm|-url|-|sku_id|-|amount 分隔符为‘|-|’, 数据样例为:张三|-|q2013-11-23 11:59:30|-|www.jd.com|-|100023|-|110.15李四|-|q2014-11-23 11:59:30|-|www.bu.com|-|100023|-|210.15...原创 2018-08-31 08:31:50 · 573 阅读 · 0 评论 -
Hive 数据存储,数据压缩,执行引擎
1.需求描述:统计Youtube视频网站的常规指标,各种TopN指标:--统计视频观看数Top10--统计视频类别热度Top10--统计视频观看数Top20所属类别--统计视频观看数Top50所关联视频的所属类别Rank--统计每个类别中的视频热度Top10--统计每个类别中视频流量Top10--统计上传视频最多的用户Top10以及他们上传的视频--统计每个类别视频...原创 2018-08-29 10:01:04 · 756 阅读 · 0 评论 -
Hive 文件格式
1.Fetch抓取 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台。 在hive-default.xml.template文件中hive.fetch.task.conversion默认是mo...原创 2018-08-28 23:51:41 · 373 阅读 · 0 评论 -
Hive 开窗函数详解
1.Hive 数据存储 Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的;ORC和PARQUET是基于列式存储的。1.1 列式存储和行式存储基本介绍 • 行存储的特点:查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行...原创 2018-08-28 22:30:21 · 1592 阅读 · 0 评论 -
Hive 自定义函数(UDF,UDAF,UDTF)详解
开窗函数查询1.数据准备:name,orderdate,costjack,2017-01-01,10tony,2017-01-02,15jack,2017-02-03,23tony,2017-01-04,29jack,2017-01-05,46jack,2017-04-06,42tony,2017-01-07,50jack,2017-01-08,55mart,2017-0...原创 2018-08-28 22:10:09 · 1049 阅读 · 1 评论 -
Hive 内置函数详解
1.自定义函数简单介绍1.1 概述 Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。根据用户自定义函数类别分为以下三种: • UDF(User-Defined-Function):一...原创 2018-08-28 21:50:03 · 1517 阅读 · 0 评论 -
Hive 数据操作DML详解
系统自带的内置函数1.查看系统自带的函数 hive> show functions;2.显示自带的函数的用法 hive> desc function upper;3.详细显示自带的函数的用法 hive> desc function extended upper;4.常用的系统自带函数** max、sum、c...原创 2018-08-28 21:34:58 · 2121 阅读 · 0 评论 -
Hive 数据导入导出和清空
1.基本查询(select…from)1.1 全表和特定列查询 ① 全表查询:hive (default)> select * from emp; ② 选择特定列查询:hive (default)> select empno, ename from emp;1.2 列别名查询:hive (default)> select ename AS name, ...原创 2018-08-26 17:10:00 · 7473 阅读 · 0 评论 -
Hive 静态分区和动态分区详解
数据导入1.向表中装载数据(Load)1.1 语法 hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1,…)]; ① load data:表示加载数据 ②...原创 2018-08-26 16:16:50 · 516 阅读 · 0 评论 -
Hive 数据定义DDL详解
1.创建数据库1.1 创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive;1.2 避免要创建的数据库已经存在错误,增加if not exists判断。(标准写法)hive> create database db_hive;FAIL...原创 2018-08-25 23:39:19 · 4751 阅读 · 0 评论 -
Hive 数据类型和类型转换
1.基本数据类型 Hive数据类型 Java数据类型 长度 例子 TINYINT byte 1byte有符号整数 20 SMALINT short 2byte有符号整数 ...原创 2018-08-25 21:59:43 · 13150 阅读 · 1 评论 -
Hive 安装与基本操作
1.Hive安装地址说明 • Hive官网地址:http://hive.apache.org/ • 文档查看地址:https://cwiki.apache.org/confluence/display/Hive/GettingStarted • 下载地址:http://archive.apache.org/dist/hive/ • github地址:http...原创 2018-08-25 20:16:21 · 469 阅读 · 0 评论 -
Hive 的基本概念
1.什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序 • Hive处理的数据存储在HDFS • Hive分析数据底层的实现是MapReduce...原创 2018-08-24 17:50:48 · 311 阅读 · 0 评论