- 博客(6)
- 收藏
- 关注
原创 Spark Streaming示例(scala篇)
本段代码运行于Intellij IDEA中,与linux 中nc进行交互1.Scala代码:import org.apache.spark.SparkConfimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}import org.apache.spark.streaming.{Seconds, Stre...
2018-06-21 12:02:09 3430
转载 Spark Streaming 初步介绍
Spark Streaming 是 Spark Core API 的扩展,它支持弹性的,高吞吐的,容错的实时数据流的处理。数据可以通过多种数据源获取,例如 Kafka,Flume,Kinesis 以及 TCP sockets,也可以通过例如 map,reduce,join,window 等的高阶函数组成的复杂算法处理。最终,处理后的数据可以输出到文件系统,数据库以及实时仪表盘中。事实上,你...
2018-06-21 11:43:24 227
原创 RDD部分收录
transformation操作:得到一个新的RDD,比如从数据源生成一个新的RDD,从RDD生成一个新的RDD1.flatMap:对集合中每个元素进行操作然后再扁平化。 2.map:对集合中每个元素进行操作。 3.reduceByKey(_+_): 传入一个函数,将key相同的一类进行聚合计算 如相加4. mapvalues(_+10): 传入一个函数,类似于map方法,不过这里只是对元组中的v...
2018-06-20 19:43:59 272
原创 Spark on Yarn
Spark on Yarn 根据Driver 在集群中的位置分为两种模式,一种是Yarn-Client 模式,一种是 Yarn-Cluster模式(又称为standalone模式)Yarn-Client模式中,Driver在客户端本地运行,这种模式可以使得Spark Application和客户端进行交互,因为Driver在客户端,所以可以通过webUI访问Driver的状态,默认是http://...
2018-06-20 19:25:32 267
原创 Spark高可用集群搭建(HA)
Spark高可用1.zookeeper安装部署 1.1.zookeeper下载 官网 http://zookeeper.apache.org/ 下载地址 http://apache.opencas.org/zookeeper/ 这里我们选择zookeeper-3.4.7.tar.gz 1.2.zookeeper解压缩 ta...
2018-06-20 19:04:15 655 2
原创 Spark简介及运行流程图文解说
初识Spark的朋友 ,下面是我汇总后的Spark总结和自己整合的一张流程图,希望可以帮助到你,也可以给我提出建议,一同进步1.认知Spark:Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表...
2018-06-20 16:15:02 3179 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人