- 博客(6)
- 收藏
- 关注
转载 Spark SQL中Join常用的几种实现
(转载:https://www.iteblog.com/archives/2086.html)引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,...
2019-03-29 17:33:25 255
转载 FileSystem API
.FileSystem的获取。我们可以在Hadoop中使用FileSystem API来打开一个文件的输入流,然后我们可以对文件进行各种的操作实现。FileSystem是一个通用的文件系统API,FileSystem的获取方法有以下几种(以下所有相关代码接口实现均为手打,不保证完全正确,如有出错敬请谅解。):public statis FileSystem get(Configurati...
2019-03-28 13:51:07 2180
转载 hive时间戳函数
(转载):https://www.2cto.com/database/201806/757785.html时间戳是数据库常用的存放日期的形式之一,表示从 UTC 时间’1970-01-01 00:00:00’开始到现在的秒数,与常规时间格式如 ‘2018-01-01 00:00:00’可以相互转换,方法如下。一、unix_timestamp 函数用法1、unix_timestamp()...
2019-03-27 10:51:05 16990 1
原创 UDAF开发流程及心得
一、UDAF简介先解释一下什么是UDAF(User Defined Aggregate Function),即用户定义的聚合函数,聚合函数和普通函数的区别是什么呢,普通函数是接受一行输入产生一个输出,聚合函数是接受一组(一般是多行)输入然后产生一个输出,即将一组的值想办法聚合一下。关于UDAF的一个误区我们可能下意识的认为UDAF是需要和group by一起使用的,实际上UDAF...
2019-03-25 14:45:15 2129
转载 Spark UDF函数
SparkSQL的两种UDAF的讲解2018年07月09日 00:07:35Spark高级玩法阅读数:1477版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80972447Spark的dataframe提供了通用的聚合方法,比如count(),countDistinct...
2019-03-20 16:47:58 2899
转载 Sparksql UDAF,UDF详解(转)
(转)https://www.cnblogs.com/xing901022/p/6436161.htmlSpark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程(Java踩坑教学版)在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种:UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date...
2019-03-20 10:25:21 1440
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人