![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SparkSql
文章平均质量分 78
fengfengchen95
迷茫是因为有太多的时间去胡思乱想,唯独让自己充实,一直处于忙碌状态,就没有时间去迷茫
展开
-
Spark SQL读取hbase映射到hive表-----异常记录
异常问题一:Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/mapreduce/TableInputFormatBase at java.lang.ClassLoader.defineClass1(Native Method) at java.lang.Clas...原创 2018-07-25 11:28:47 · 1269 阅读 · 0 评论 -
Spark SQL读取hbase映射到hive表--开发流程介绍
如何在本地使用SparkSQL连接hbase映射到hive的外部表,操作步骤如下:一、在pom文件中添加所需的依赖,如下是必要的依赖,根据自己的实际情况选择对应版本,如果运行时找不到某些类,可能还需添加其它依赖。<dependency> <groupId>org.apache.spark</groupId> <artifactId...原创 2018-07-25 11:53:00 · 2995 阅读 · 0 评论 -
Spark SQL函数
Spark SQL 函数全集org.apache.spark.sql.functions是一个Object,提供了约两百多个函数。大部分函数与Hive的差不多。除UDF函数,均可在spark-sql中直接使用。经过import org.apache.spark.sql.functions._ ,也可以用于Dataframe,Dataset。version 2.3.0大部分...转载 2018-12-12 15:45:31 · 309 阅读 · 0 评论 -
Spark SQL时间函数
一、获取当前时间1.current_date获取当前日期2018-04-09 2.current_timestamp/now()获取当前时间2018-04-09 15:20:49.247 3.时间戳转换字符串格式 from_unixtime(cloumn,'yyyy-MM-dd HH:mm:ss') 二、从日期时间中提取字段 1.year,month,day/dayofmon...转载 2018-12-12 13:35:37 · 3657 阅读 · 1 评论 -
Sparksql UDAF,UDF详解(转)
(转)https://www.cnblogs.com/xing901022/p/6436161.htmlSpark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程(Java踩坑教学版)在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种:UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date...转载 2019-03-20 10:25:21 · 1427 阅读 · 0 评论 -
Spark UDF函数
SparkSQL的两种UDAF的讲解2018年07月09日 00:07:35Spark高级玩法阅读数:1477版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/rlnLo2pNEfx9c/article/details/80972447Spark的dataframe提供了通用的聚合方法,比如count(),countDistinct...转载 2019-03-20 16:47:58 · 2884 阅读 · 0 评论 -
UDAF开发流程及心得
一、UDAF简介先解释一下什么是UDAF(User Defined Aggregate Function),即用户定义的聚合函数,聚合函数和普通函数的区别是什么呢,普通函数是接受一行输入产生一个输出,聚合函数是接受一组(一般是多行)输入然后产生一个输出,即将一组的值想办法聚合一下。关于UDAF的一个误区我们可能下意识的认为UDAF是需要和group by一起使用的,实际上UDAF...原创 2019-03-25 14:45:15 · 2123 阅读 · 0 评论 -
Spark SQL中Join常用的几种实现
(转载:https://www.iteblog.com/archives/2086.html)引言Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。而建立表和表之间关系的最佳方式就是Join操作。SparkSQL作为大数据领域的SQL实现,自然也对Join操作做了不少优化,今天主要看一下在SparkSQL中对于Join,...转载 2019-03-29 17:33:25 · 245 阅读 · 0 评论 -
hive时间戳函数
(转载):https://www.2cto.com/database/201806/757785.html时间戳是数据库常用的存放日期的形式之一,表示从 UTC 时间’1970-01-01 00:00:00’开始到现在的秒数,与常规时间格式如 ‘2018-01-01 00:00:00’可以相互转换,方法如下。一、unix_timestamp 函数用法1、unix_timestamp()...转载 2019-03-27 10:51:05 · 16875 阅读 · 1 评论