Spark大数据生态圈学习总结及项目实战
文章平均质量分 60
此专栏是我在学习大数据时Spark系列框架时所做的学习总结和在后面项目实战(Spark Streaming实时流处理项目)时所遇到的问题的解决方案以及思考分析!
29DCH
In me the tiger sniffs the rose.
展开
-
Spark Streaming消费Kafka的数据进行统计
流处理平台:这里是第四步的实现:Spark Streaming整合Kafka采用的是Receiver-based,另一种方式Direct Approach,稍作修改就行。package sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.kafka.KafkaUtilsimport org....原创 2018-12-06 13:05:16 · 1256 阅读 · 0 评论 -
java日志产生器开发并结合log4j完成日志输出到控制台以及flume中
首先搭建一个maven项目,在项目的test测试文件夹下面新建一个java文件夹和resources文件夹,并标记化然后在java文件夹下面新建LoggerGenerator.java文件import java.util.logging.Logger;/** * 模拟日志产生 */public class LoggerGenerator { private static ...原创 2018-12-03 21:45:50 · 517 阅读 · 0 评论 -
大数据学习方法及主要内容
目前来说,大数据的学习核心就是hadoop生态圈及相关的技术。主要的技能树-语言篇:Hadoop本身是用java开发的,所以对java的支持性非常好,所以java是必须的语言。数据挖掘:因为Python开发效率较高所以我们使用Python来进行任务,当然,目前很强大的scala也是一种不错的备选。因为Hadoop是运行在Linux系统上的,所以还需要掌握Linux的知识。学习介绍:学...原创 2018-12-04 14:50:49 · 528 阅读 · 0 评论 -
Spark Streaming整合Kafka的两种方式
Maven项目下的pom.xml文件加入如下依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-8_2.11</artifac原创 2018-11-30 22:12:46 · 282 阅读 · 0 评论 -
Spark Streaming整合Flume的两种方式
构建Maven项目,在pom.xml文件中加入如下依赖:Push方式整合<!-- Spark Streaming 依赖--> <dependency> <groupId>org.apache.spark&lt原创 2018-11-30 20:17:43 · 252 阅读 · 0 评论 -
使用Spark Streaming完成词频统计,并将结果写入到MySQL数据库中
首先在maven工程的pom.xml文件加入以下依赖:<properties> <spark.version>2.2.0</spark.version></properties> <!-- Spark Streaming 依赖--> <dependency> ...原创 2018-11-28 21:38:33 · 772 阅读 · 0 评论 -
使用Spark Streaming整合Spark SQL完成词频统计操作
SqlNetworkWordCount.scalapackage sparkimport org.apache.spark.SparkConfimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Seconds, Streamin...原创 2018-11-28 21:14:34 · 561 阅读 · 0 评论 -
使用Spark Streaming完成黑名单过滤
TransformApp.scalapackage sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 黑名单过滤 */object TransformApp { def main(args: Array[Str...原创 2018-11-28 20:53:41 · 353 阅读 · 0 评论 -
使用Spark Streaming完成有状态统计
StatefulWordCount.scalapackage sparkimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * 使用Spark Streaming完成有状态统计 */object StatefulWordCount {...原创 2018-11-28 20:36:28 · 276 阅读 · 0 评论 -
Spark Streaming核心概念与编程实例
紧接我的上一篇博客 https://blog.csdn.net/CowBoySoBusy/article/details/84348469构建一个 Spark Streaming 应用程序一般来说需要 4 个步骤StreamingContext:1.初始化StreamingContextimport org.apache.spark._import org.apache.spark.st...原创 2018-11-23 19:50:30 · 207 阅读 · 0 评论 -
Spark Streaming初步总结
详情见Spark编程指南 https://aiyanbo.gitbooks.io/spark-programming-guide-zh-cn/content/spark-streaming/index.htmlhttps://www.ibm.com/developerworks/cn/opensource/os-cn-spark-streaming/index.htmlhttps://my.o...原创 2018-11-23 12:19:09 · 458 阅读 · 0 评论 -
整合Flume和Kafka完成实时数据采集
结合我的这三篇博客 Flume应用案例之两台服务器之间进行实时数据采集和分布式消息队列Kafka简介及环境安装部署Flume应用案例之监控一个文件实时采集新增的数据输出到控制台把avro-memory-logger.conf改成avro-memory-kafka.conf内容如下:avro-memory-kafka.sources = avro-sourceavro-memory-ka...原创 2018-10-19 15:37:28 · 509 阅读 · 0 评论 -
大数据学习路线
最近在学习大数据的相关知识,刚把hadoop伪分布式单机版配置环境搭好,基本操作也算练习了一遍,下面准备弄集群了.学完hadoop就要开始学Spark,时间还是挺紧的.现在大三了,自己也是第一次自学大数据,没什么经验,坑都是要一个一个踩的,这样才能更好地去锻炼自己的能力,提高自己包括自学等各方面的水平!平时我会把自己犯过的错和一些知识或者经验总结归纳到自己的博客里面,大数据方面也有挺多的,和我一...原创 2018-10-06 21:18:45 · 326 阅读 · 0 评论 -
Spark简介、环境安装部署及词频统计实例
Spark是一个高性能的分布式计算框架,由于是在内存中进行操作,性能比MapReduce要高出很多.具体的我就不介绍了,直接开始安装部署并进行实例测试首先在官网下载http://spark.apache.org/downloads.html注意要根据你的hadoop版本选择,2.7极以后可以选这个如果选Source Code的话后面启动spark-shell会报这样的错下好解压缩,...原创 2018-10-12 13:05:09 · 445 阅读 · 0 评论 -
Flink简介及环境安装部署、词频统计实例、WordCount源码分析
Flink是一个分布式的流式处理框架,具体见官网介绍,我就不多说了https://flink.apache.org/根据自己hadoop和scala的版本安装对应版本的Flink下载好解压缩到指定目录,cd进去bin目录下面操作具体参考官方文档快速启动https://ci.apache.org/projects/flink/flink-docs-release-1.6/quicksta...原创 2018-10-12 16:56:22 · 1056 阅读 · 0 评论 -
大数据处理神器Beam
ApacheBeam是统一批处理(Batch)模式和数据流(Stream)处理模式的标准. 在大数据各种框架中,比如进行批处理的MapReduce,实时流处理的Flink,以及SQL交互的Spark SQL等等,把这些开源框架,工具,类库,平台整合到一起,所需要的工作量以及复杂度,可想而知。这也是大数据开发者比较头疼的问题。而整合这些资源的一个解决方案,就是 Apache Beam。java快...原创 2018-10-12 21:37:51 · 2478 阅读 · 0 评论 -
分布式日志收集框架Flume简介及环境安装部署
最近在做一个基于Spark Streaming的实时流处理项目,之间用到了Flume来收集日志信息,所以在这里总结一下Flume的用法及原理.Flume是一个分布式、高可靠、高可用、负载均衡的进行大量日志数据采集、聚合和并转移到存储中的框架, 基于流式架构,容错性强,也很灵活简单,主要用于在线实时的引用分析,只能在Unix环境下运行,底层源码由Java实现.Flume目前常见的应用场景:日志—...原创 2018-10-15 21:11:13 · 370 阅读 · 0 评论 -
Flume应用案例之从指定网络端口采集数据输出到控制台
紧接我的上一篇博客 分布式日志收集框架Flume环境安装部署这里开始实践,讲一下flume的应用案例1.从指定网络端口采集数据输出到控制台还是先参考一下万能的官网https://flume.apache.org/FlumeUserGuide.htmla1:agent名称r1:数据源的名称k1:sink的名称c1:channel的名称example.conf#Name the c...原创 2018-10-16 14:44:12 · 502 阅读 · 0 评论 -
Flume应用案例之监控一个文件实时采集新增的数据输出到控制台
紧接我的前两篇博客讲下来分布式日志收集框架Flume环境安装部署Flume应用案例之从指定网络端口采集数据输出到控制台阅读这篇博客如有问题,可以先参考阅读我的这两篇博客相关内容Agent选型:exec source + memory channel + logger sink在conf目录下创建exec-memory-logger.conf文件 vi exec-memory-logge...原创 2018-10-16 15:40:24 · 972 阅读 · 0 评论 -
Flume应用案例之两台服务器之间进行实时数据采集
紧接我的上一篇博客 Flume应用案例之监控一个文件实时采集新增的数据输出到控制台虚拟机啥的我先不搭了,就在一台服务器上演示技术选型:exec source + memory channel + avro sinkavro source + memory channel + logger sink所以需要两个配置文件:在conf目录下创建exec-memory-avro.conf和av...原创 2018-10-16 19:28:57 · 767 阅读 · 0 评论 -
分布式消息队列Kafka简介及环境安装部署
最近在做一个基于Spark Streaming的实时流处理项目,之间用到了Kafka来作为消息队列,所以在这里总结一下Kafka的用法及原理.Kafka是由Apache软件基金会开发的一个分布式开源流处理平台,由Scala和Java编写。该项目的目标是为处理实时数据提供一个统一、高吞吐、低延迟的平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”,这使它作为企业级基础...原创 2018-10-17 17:07:18 · 454 阅读 · 0 评论 -
Kafka容错性测试
紧接我的上一篇博客 分布式消息队列Kafka简介及环境安装部署这里对kafka的容错性进行测试由图可以看出,此时有三个kafka进程,副本因子为3,leader是1号block,2,3号是从block,并且此时1,2,3号节点均存活这个时候我们将3号block的进程强制结束掉kill -9 20023现在可见活的节点只有1,2了这个时候把leader 1干掉清晰可见,leade...原创 2018-10-17 20:52:04 · 744 阅读 · 0 评论