2019年03月_fengfengchen95

转载 Spark SQL中Join常用的几种实现

（转载：https://www.iteblog.com/archives/2086.html）引言Join是SQL语句中的常用操作，良好的表结构能够将数据分散在不同的表中，使其符合某种范式，减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现，自然也对Join操作做了不少优化，今天主要看一下在SparkSQL中对于Join，...

2019-03-29 17:33:25 255

转载 FileSystem API

.FileSystem的获取。我们可以在Hadoop中使用FileSystem API来打开一个文件的输入流，然后我们可以对文件进行各种的操作实现。FileSystem是一个通用的文件系统API，FileSystem的获取方法有以下几种(以下所有相关代码接口实现均为手打，不保证完全正确，如有出错敬请谅解。)：public statis FileSystem get(Configurati...

2019-03-28 13:51:07 2180

转载 hive时间戳函数

（转载）：https://www.2cto.com/database/201806/757785.html时间戳是数据库常用的存放日期的形式之一，表示从 UTC 时间’1970-01-01 00:00:00’开始到现在的秒数，与常规时间格式如 ‘2018-01-01 00:00:00’可以相互转换，方法如下。一、unix_timestamp 函数用法1、unix_timestamp()...

2019-03-27 10:51:05 16990 1

原创 UDAF开发流程及心得

一、UDAF简介先解释一下什么是UDAF（User Defined Aggregate Function），即用户定义的聚合函数，聚合函数和普通函数的区别是什么呢，普通函数是接受一行输入产生一个输出，聚合函数是接受一组（一般是多行）输入然后产生一个输出，即将一组的值想办法聚合一下。关于UDAF的一个误区我们可能下意识的认为UDAF是需要和group by一起使用的，实际上UDAF...

2019-03-25 14:45:15 2129

转载 Spark UDF函数

2019-03-20 16:47:58 2899

转载 Sparksql UDAF,UDF详解（转）

（转）https://www.cnblogs.com/xing901022/p/6436161.htmlSpark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程（Java踩坑教学版）在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种：UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date...

2019-03-20 10:25:21 1440

fengfengchen95的博客