自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Spark Streaming示例(scala篇)

本段代码运行于Intellij IDEA中,与linux 中nc进行交互1.Scala代码:import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, Stre...

2018-06-21 12:02:09 3430

转载 Spark Streaming 初步介绍

    Spark Streaming 是 Spark Core API 的扩展,它支持弹性的,高吞吐的,容错的实时数据流的处理。数据可以通过多种数据源获取,例如 Kafka,Flume,Kinesis 以及 TCP sockets,也可以通过例如 map,reduce,join,window 等的高阶函数组成的复杂算法处理。最终,处理后的数据可以输出到文件系统,数据库以及实时仪表盘中。事实上,你...

2018-06-21 11:43:24 227

原创 RDD部分收录

transformation操作:得到一个新的RDD,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD1.flatMap:对集合中每个元素进行操作然后再扁平化。 2.map:对集合中每个元素进行操作。 3.reduceByKey(_+_): 传入一个函数,将key相同的一类进行聚合计算 如相加4. mapvalues(_+10): 传入一个函数,类似于map方法,不过这里只是对元组中的v...

2018-06-20 19:43:59 272

原创 Spark on Yarn

Spark on Yarn 根据Driver 在集群中的位置分为两种模式,一种是Yarn-Client 模式,一种是 Yarn-Cluster模式(又称为standalone模式)Yarn-Client模式中,Driver在客户端本地运行,这种模式可以使得Spark Application和客户端进行交互,因为Driver在客户端,所以可以通过webUI访问Driver的状态,默认是http://...

2018-06-20 19:25:32 267

原创 Spark高可用集群搭建(HA)

Spark高可用1.zookeeper安装部署    1.1.zookeeper下载        官网     http://zookeeper.apache.org/  下载地址   http://apache.opencas.org/zookeeper/        这里我们选择zookeeper-3.4.7.tar.gz    1.2.zookeeper解压缩            ta...

2018-06-20 19:04:15 655 2

原创 Spark简介及运行流程图文解说

初识Spark的朋友 ,下面是我汇总后的Spark总结和自己整合的一张流程图,希望可以帮助到你,也可以给我提出建议,一同进步1.认知Spark:Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表...

2018-06-20 16:15:02 3179 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除