- 博客(6)
- 资源 (3)
- 问答 (1)
- 收藏
- 关注
原创 Hive内嵌表生成函数UDTF:explode,posexplode,json_tuple,parse_url_tuple,stack
0.Hive内嵌表生成函数Built-in Table-Generating Functions (UDTF)普通的用户定义函数,如concat(),接受单个输入行并输出单个输出行。相反,表生成函数将单个输入行转换为多个输出行 Row-set columns types Name(Signature) Description T explode(ARRAY<T> a) E
2020-07-06 19:55:58 3165
原创 Hive内嵌字符处理函数:get_json_object,parse_url
1.Hive内嵌函数对Json字符和网址的解析处理 Return Type Name(Signature) Description string parse_url(string urlString, string partToExtract [, string keyToExtract]) Returns...
2020-07-06 19:08:42 2221
原创 Hive内嵌字符处理函数:regexp_extract,regexp_replace,split,replace,translate
1. Return Type Name(Signature) Description regexp_extract(string subject, string pattern, int index) Returns the string extracted using the p...
2020-07-06 18:25:56 5061
原创 Hive内嵌集合函数:size,map_keys,map_values,array_contains,sort_array等详解
0.hive官方函数解释 hive官网函数大全地址:HIVE官网函数大全地址Collection Functions Return Type Name(Signature) Description int size(Map<K.V>) Returns the number of elements in the map type. int ...
2020-07-06 17:42:15 10785
原创 真正让你明白Hive调优系列3:笛卡尔乘积,小表join大表,Mapjoin等问题
0.Hive中的优化分类 真正想要掌握Hive的优化,要熟悉相关的MapReduce,Yarn,hdfs底层源码,明晰Hive的底层执行流程。真正让你明白Hive调优系列,会征对下面分类逐一介绍。大类1:参数优化文件输入前看是否需要map前合并小文件 控制map个数,根据实际需求确认每个map的数据处理量,split的参数等 Map输出是否需要启动压缩,减少网络传输,OOM处理等 控制redcue个数,控制每个reduce的吞吐量,OOM处理等 是否将common-join转换成...
2020-07-04 20:39:09 9134 4
原创 大多数开发人员都弄错的Hive与MapReduce小文件合并问题
进来公司搞小文件治理(小于10Mb),小文件太多的危害就不此赘述了。公司的开发人员提供的小文件治理配置如下:-- 设置小文件合并set hive.merge.mapfiles=true;set hive.merge.mapredfiles=true;set hive.merge.size.per.task = 256000000 ;set hive.merge.smallfiles.avgsize= 256000000 ; 看上去配置的没啥问题,不管是Map-only,还...
2020-07-02 22:58:00 6511 7
程序员的薪资天花板是多少?
2021-11-02
TA创建的收藏夹 TA关注的收藏夹
TA关注的人