Arthas1820-CSDN博客

转载自定义Hive UDAF 实现相邻去重

内置的两个聚合函数（UDAF）collect_list()：多行字符串拼接为一行collect_set()：多行字符串拼接为一行并去重多行字符串拼接为一行并相邻去重UDAF：Concat()concat_udaf.jarpackage com.tcc.udaf;import org.apache.hadoop.hive.ql.exec.UDAF;import org.ap...

2019-09-10 17:58:00 139

转载 hive正则表达式的用法

regexp_replace用法1. 截取字符串中的汉字部分：举个栗子：select regexp_replace('七夕节comming!来啦','([^\\u4E00-\\u9FA5]+)','') from dual;结果：七夕节来啦 2.截取字符串中的字母和数字部分：（[^xyz] 不匹配这个集合中的任何一个字符）举个栗子：select regexp_re...

2019-09-03 17:25:00 345

转载 json_tuple()函数的应用

　　直接举栗子说明用法吧：　　下面是来自APP埋点脚本获取的一段JSON字符串：通过平台sqoop推数存放在cx_ods_safe.paczcb_paczdata_cz_policy_detail_info.data字段中{"applicants":[{"birthday":-247478400000, "certificateNo":"440824...

2019-08-26 20:10:00 1836

转载 spark与mapreduce的区别

　　spark是通过借鉴Hadoop mapreduce发展而来，继承了其分布式并行计算的优点，并改进了mapreduce明显的缺陷，具体表现在以下几方面：　　1.spark把中间计算结果存放在内存中，减少迭代过程中的数据落地，能够实现数据高效共享，迭代运算效率高。mapreduce中的计算中间结果是保存在磁盘上的，这样必然影响整体运行速度。　　 2.spark容错性高。spa...

2019-08-24 16:42:00 157

转载见证成长路--这是第一步：2019-08-13

人生都是有轨迹的，不要做清风，吹过不留痕，人生就是要留下走过的脚印，一步一步，今天从第一步开始！转载于:https://www.cnblogs.com/db-record/p/11346026.html...

2019-08-13 15:08:00 93

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

转载 自定义Hive UDAF 实现相邻去重

转载 hive正则表达式的用法

转载 json_tuple()函数的应用

转载 spark与mapreduce的区别

转载 见证成长路--这是第一步：2019-08-13

空空如也

空空如也

转载自定义Hive UDAF 实现相邻去重

转载见证成长路--这是第一步：2019-08-13