自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 资源 (1)
  • 收藏
  • 关注

原创 在RDD、DataFrame和DataSet之间怎么选?

先来介绍一下spark中的RDD、DataFrame和DataSet: RDD(弹性分布式数据集)数据元素的不可变的分布式集合,在集群中的节点之间进行分区,可以与提供转换和操作的低水平的API并行操作。 DataFrame是一个不可变的分布式数据集合。与RDD不同,数据被组织成命名列,就像关系数据库中的表,为了使大数据集处理变得更加容易,DataFrame允许开发人员将结构强加于分布式数据集合...

2018-02-27 16:44:30 1426

原创 Hive中UDF和UDAF使用说明及示例

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。 一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括: a)文件格式:Text File,Sequence File b)内存中的数据格式:Java Integer/Str...

2018-02-28 11:54:34 3710

WinRAR5.5无广告(官网下载)

在官网服务器中下载的压缩工具,无广告,内含Key无需破解。

2018-02-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除