自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Rocky

不积跬步,无以至千里;不积小流,无以成江海

原创 Spark创建DataFrame和读取CSV数据文件

之前写的程序中,有些API在Spark SQLContext没有,我计算的结果先保存在rdd中,最后在使用RDD转换成dataframe进行保存,话不多说下面是代码. //一个StruceField你可以把它当成一个特征列。分别用列的名称和数据类型初始化 val structFields ...

2017-06-20 20:07:52

阅读数 2466

评论数 0

转载 Spark DataFrames入门指南:创建和操作DataFrame

一、从csv文件创建DataFrame   本文将介绍如何从csv文件创建DataFrame。 如何做?   从csv文件创建DataFrame主要包括以下几步骤:   1、在build.sbt文件里面添加spark-csv支持库;   2、创建SparkConf对象,其中包括Spark运行所有...

2017-06-20 17:32:16

阅读数 288

评论数 0

转载 Spark Streaming中的操作函数分析

根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类 TransformationsWindow OperationsJoin OperationsOutput Operations 一、Transformations ...

2017-06-20 15:53:06

阅读数 176

评论数 0

转载 浅析Apache Spark Caching和Checkpointing

Apache Spark应用开发中,内存管理是最重要的人物之一,但cacheing和checkpointing之间的差异可能会导致混乱。这2种操作是都是用来防止rdd(弹性分布式数据集)每次被引用时被重复计算带来的时间和空间上不必要的损失。然而他们之间的区别是什么呢? fengmia...

2017-06-16 18:11:36

阅读数 322

评论数 0

转载 Spark多文件输出(MultipleTextOutputFormat)

因为Spark内部写文件方式其实调用的都是Hadoop那一套东西,所以我们也可以通过Spark实现多文件输出。不过遗憾的是,Spark内部没有多文件输出的函数供大家直接调用,值得欣慰的是,我们自己实现这个功能也是很简单的。我们可以通过调用saveAsHadoopFile函数并自定义一个Output...

2017-06-16 18:10:29

阅读数 812

评论数 0

提示
确定要删除当前文章?
取消 删除