spark
gao634209276
这个作者很懒,什么都没留下…
展开
-
idea创建Spark Maven项目
在Spark快速入门指南 – Spark安装与基础使用中介绍了Spark的安装与配置,在那里还介绍了使用spark-submit提交应用,不过不能使用vim来开发Spark应用,放着IDE的方便不用。这里介绍使用Intellij Idea搭建Spark的开发环境。 1、Intellij Idea的安装 由于Spark安装在Ubuntu环境中,这里的Idea也安装在Ubuntu中。首先是下载,到转载 2016-08-16 22:30:45 · 2622 阅读 · 0 评论 -
基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程
基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程 1、环境准备,四台测试服务器 spark集群三台,spark1,spark2,spark3 kafka集群三台,spark1,spark2,spark3 zookeeper集群三台,spark1,spark2,spark3 日志接收服务器, spark1 日志收集服务器,redis (这台机器用来转载 2016-08-16 22:32:32 · 808 阅读 · 0 评论 -
Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。 我转载 2016-08-16 23:29:45 · 1357 阅读 · 0 评论 -
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。 一、基于Receiver的方式 这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现转载 2016-08-17 12:10:37 · 366 阅读 · 0 评论 -
这几天折腾spark的kafka的低阶API createDirectStream的一些总结
大家都知道在spark1.3版本后,kafkautil里面提供了两个创建dstream的方法,一个是老版本中有的createStream方法,还有一个是后面新加的createDirectStream方法。关于这两个方法的优缺点,官方已经说的很详细(http://Spark.apache.org/docs/latest/streaming-kafka-integration.html),总之就是cr转载 2016-08-17 12:11:38 · 554 阅读 · 0 评论 -
DirectStream、Stream的区别-SparkStreaming源码分析02
在Spark1.3之前,默认的Spark接收Kafka数据的方式是基于Receiver的,在这之后的版本里,推出了Direct Approach,现在整理一下两种方式的异同。 1. Receiver-based Approach 示例代码: import org.apache.spark.streaming.kafka._ val kafkaStream = KafkaU转载 2016-08-17 12:12:28 · 919 阅读 · 0 评论 -
Spark-Streaming与Spark-Sql整合实现实时股票排行---通过kafka列队数据
摘要:Apache Spark 是加州大学伯克利分校的 AMPLabs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计,使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x),并且对多语言(Scala、Java、Python)提供支持。其一栈式设计特点使得我们的学习和维护成本大大地减少,而且其提供了很好的容错解决方案。... Apache Spark转载 2016-08-17 12:13:29 · 544 阅读 · 0 评论 -
Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战
1、Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor; l驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用SparkContext代表Driver Program; l执行单元(Exe转载 2016-08-17 17:53:12 · 355 阅读 · 0 评论 -
Spark Core通过log信息由浅到深分析架构原理和工作流程
本文完全从0开始了解spark到深入理解spark core 一,概念,基础 ================================================================ 1.前提 编译: ./make-distribution.sh --tgz -Pyarn -Phadoop-2.6 -Dhadoop.version=2.7.2 -Phi原创 2016-08-27 18:26:17 · 1102 阅读 · 0 评论