- 博客(5)
- 收藏
- 关注
转载 自定义Hive UDAF 实现相邻去重
内置的两个聚合函数(UDAF)collect_list():多行字符串拼接为一行collect_set():多行字符串拼接为一行并去重多行字符串拼接为一行并相邻去重UDAF:Concat()concat_udaf.jarpackage com.tcc.udaf;import org.apache.hadoop.hive.ql.exec.UDAF;import org.ap...
2019-09-10 17:58:00 139
转载 hive正则表达式的用法
regexp_replace用法1. 截取字符串中的汉字部分:举个栗子:select regexp_replace('七夕节comming!来啦','([^\\u4E00-\\u9FA5]+)','') from dual;结果:七夕节来啦 2.截取字符串中的字母和数字部分:([^xyz] 不匹配这个集合中的任何一个字符)举个栗子:select regexp_re...
2019-09-03 17:25:00 345
转载 json_tuple()函数的应用
直接举栗子说明用法吧: 下面是来自APP埋点脚本获取的一段JSON字符串:通过平台sqoop推数存放在cx_ods_safe.paczcb_paczdata_cz_policy_detail_info.data字段中{"applicants":[{"birthday":-247478400000, "certificateNo":"440824...
2019-08-26 20:10:00 1836
转载 spark与mapreduce的区别
spark是通过借鉴Hadoop mapreduce发展而来,继承了其分布式并行计算的优点,并改进了mapreduce明显的缺陷,具体表现在以下几方面: 1.spark把中间计算结果存放在内存中,减少迭代过程中的数据落地,能够实现数据高效共享,迭代运算效率高。mapreduce中的计算中间结果是保存在磁盘上的,这样必然影响整体运行速度。 2.spark容错性高。spa...
2019-08-24 16:42:00 157
转载 见证成长路--这是第一步:2019-08-13
人生都是有轨迹的,不要做清风,吹过不留痕,人生就是要留下走过的脚印,一步一步,今天从第一步开始!转载于:https://www.cnblogs.com/db-record/p/11346026.html...
2019-08-13 15:08:00 93
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人