- 博客(2)
- 资源 (1)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 在RDD、DataFrame和DataSet之间怎么选?
先来介绍一下spark中的RDD、DataFrame和DataSet: RDD(弹性分布式数据集)数据元素的不可变的分布式集合,在集群中的节点之间进行分区,可以与提供转换和操作的低水平的API并行操作。 DataFrame是一个不可变的分布式数据集合。与RDD不同,数据被组织成命名列,就像关系数据库中的表,为了使大数据集处理变得更加容易,DataFrame允许开发人员将结构强加于分布式数据集合...
2018-02-27 16:44:30
1426
原创 Hive中UDF和UDAF使用说明及示例
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式:Java Integer/Str...
2018-02-28 11:54:34
3710
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人