Hive
程序员小陶
公众号:大数据学习指南
展开
-
一文搞定 Hive 表分隔符
Hive 中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格、”\t”、”\x001″)、行分隔符(”\n”)以及读取文件数据的方法。由于在加载数据的过程中,不需要从用户数据格式到 Hive 定义的数据格式的转换,因此,Hive 在加载的过程中不会对数据本身进行任何修改,而只是将数据内容复制或者移动到相应的 HDFS 目录中。Hive 的默认列分隔符 org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe,原创 2020-11-23 15:41:57 · 4076 阅读 · 0 评论 -
Hive 分析函数
本文首发于:大数据每日哔哔-Hive 分析函数应用场景(1)用于分区排序(2)Top N(3)层次查询常用分析函数分析函数描述RANK返回数据项在分区中的排名。排名值序列可能会有间隔DENSE_RANK返回数据项在分区中的排名。排名值序列是连续的,没有间隔PERCENT_RANK计算当前行的百分比排名:(x - 1)/(窗口分区中的行数 - 1)...原创 2020-01-31 16:55:29 · 240 阅读 · 0 评论 -
Hive 的窗口函数
本文首发于:微信公众号【大数据每日哔哔,文章:Hive SQL 窗口函数在 SQL 中有一类函数叫做聚合函数,例如 sum()、avg()、max()、min() 等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是,有时候我们既要显示聚集前的数据,又要显示聚集后的数据,此时我们便引入了窗口函数。窗口函数主要用于 OLAP 数据分析。在深入研究Ove...原创 2020-01-31 16:54:30 · 504 阅读 · 0 评论 -
Hive ETL 任务调优(参数篇)
Hive 调优-参数篇图片来源网络,点赞工作中常用的 hive 参数调优,整理如下。原则:最少数据最少字段最少Job数最少读取次数避免数据倾斜整体最优而不是局部最优JVM 内存文件大小合理切分这里需要结合集群的资源来合理的设置切片大小。# 文件分割大小set mapreduce.input.fileinputformat.split.maxsize=53687...原创 2020-01-11 15:18:17 · 1105 阅读 · 0 评论 -
Hive UDF 中使用hdfs中的文件
set mapred.cache.files=/data/ip/GeoLite2-City.mmdb#GeoLite2-City.mmdb;create temporary function ip_analyse as 'common.udf.IP2Location' using 'hdfs:///jars/hive-custom-udf-2.1-jar-with-dependencies.ja...原创 2019-07-09 13:41:41 · 2923 阅读 · 0 评论 -
Hive 时间戳和日期相互转换
时间戳转成日期select distinct from_unixtime(1441565203,‘yyyy/MM/dd HH:mm:ss’) from test_date;日期转成时间戳select distinct unix_timestamp(‘20111207 13:01:03’) from test_date; // 默认格式为“yyyy-MM-dd HH:mm:ss“selec...原创 2019-05-07 13:55:27 · 38930 阅读 · 3 评论 -
Hive分析函数--row_number 的用法
例子select ip,uuid,row_number() over(partition by uuid order by p_dt desc) as rank from ip_uuid_table;这个例子中有哪些值得关注的地方呢?partition by 用于给结果集分组。over() 函数用于返回一个分组中的多个值。这里与聚合函数(count,sum,min等等不同),...原创 2019-04-21 00:41:18 · 885 阅读 · 0 评论 -
Hive 处理 json 的几个函数
本文参考:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDFget_json_objecthive中解析一般的json是很容易的,使用 get_json_object 就可以了。get_json_object 函数第一个参数填写json对象变量,第二个参数使用$表示json变量标识,然后用 . 或 [] 读...原创 2019-04-21 00:37:16 · 5027 阅读 · 0 评论 -
Hadoop 系列之 Hive
Hadoop 系列之 HiveHive 的官网:http://hive.apache.org/Hive versions 1.2 onward require Java 1.7 or newer.上一篇提到的 MapRedue 虽然简化了分布式应用的实现方式,但还是离不开写代码。Hive 简介Hive 是基于 Hadoop 的一个【数据仓库工具】,可以将结构化的数据...原创 2019-04-21 00:35:27 · 501 阅读 · 0 评论 -
Hive 处理 json 数据
两种方式1、将json以字符串的方式整个入Hive表,然后通过使用UDF函数解析已经导入到hive中的数据,比如使用LATERAL VIEW json_tuple的方法,获取所需要的列名。2、在导入之前将json拆成各个字段,导入Hive表的数据是已经解析过得。这将需要使用第三方的SerDe。测试数据测试数据为新浪微博的评论数据,格式如下:{ "appCode": "weibo",...原创 2019-04-21 10:31:49 · 387 阅读 · 0 评论