流式计算
wyc_595998412
希望在今后5年实现以下目标:1、读最好的书 2、见最优秀的人 3、走一条属于自己的路。
展开
-
kafka
介绍ApacheKafka®是一个分布式流媒体平台。这到底是什么意思呢?流媒体平台有三个关键功能:发布和订阅记录流,类似于消息队列或企业消息传递系统。 以容错的持久方式存储记录流。 记录发生时处理流。Kafka通常用于两大类应用:构建可在系统或应用程序之间可靠获取数据的实时流数据管道 构建转换或响应数据流的实时流应用程序要了解Kafka如何做这些事情,让我们深入探讨Kaf...翻译 2018-08-26 12:41:11 · 258 阅读 · 0 评论 -
spark任务生成和提交流程详解
首先将代码打包上传到集群1、Driver端会调用SparkSubmit类(内部执行submit->doRunMain->通过反射获取应用程序的主类对象->执行主类的main方法)2、构建sparkConf和sparkContext对象,在sparkContext入口做了三件事,创建了sparkEnv对象(创建了ActorSystem对象)TaskScheduler(用来生...原创 2018-09-02 18:11:48 · 1549 阅读 · 0 评论 -
Hadoop、Spark五种大数据框架解析
Hadoop、Spark等5种大数据框架对比,你的项目该用哪种? 本文将介绍并对比5种主流大数据框架,助你更深层次了解这些框架,从而在项目中更好地使用它们。 本文首发于InfoQ垂直号「大数据杂谈」,转载已获授权。 简介 大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的...转载 2018-09-02 12:05:33 · 2181 阅读 · 0 评论 -
Kafka(内部详解)如何保证数据的一致性
数据一致性保证一致性定义:若某条消息对client可见,那么即使Leader挂了,在新Leader上数据依然可以被读到HW-HighWaterMark: client可以从Leader读到的最大msg offset,即对外可见的最大offset, HW=max(replica.offset)对于Leader新收到的msg,client不能立刻消费,Leader会等待该消息被所有ISR中的re...原创 2018-09-07 19:42:48 · 17361 阅读 · 0 评论 -
Apache 流框架 Flink,Spark Streaming,Storm
1.Flink架构及特性分析Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供high level的API。Flink也提供 API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一种特殊情况。在Flink中,所有 的数据都看作流,是一种很好的抽象,因为这更接近于现实世界。 1.1 基本架构...转载 2018-08-25 16:44:19 · 467 阅读 · 0 评论 -
kafka-最新实战
Kafka 由于高吞吐量、可持久化、分布式、支持流数据处理等特性而被广泛应用。但当前关于Kafka原理及应用的相关资料较少,在我打算编写本文时,还没有见到中文版本的Kafka相关书籍,对于初学者甚至是一些中高级应用者来说学习成本还是比较高的,因此我打算在对Kafka进行深入而系统的研究基础上,结合自己在工作中的实践经验,编写一本介绍Kafka原理及其基本应用的书籍,以帮助Kafka初、中、高级应用...转载 2018-08-29 17:05:25 · 287 阅读 · 0 评论 -
spark-参数配置总结
Spark属性控制大多数应用程序设置,并为每个应用程序单独配置。这些属性可以直接在传递给你 的SparkConf上设置 SparkContext。SparkConf允许您通过该set()方法配置一些常见属性(例如主URL和应用程序名称)以及任意键值对 。例如,我们可以使用两个线程初始化应用程序,如下所示:请注意,我们使用local [2]运行,这意味着两个线程 - 代表“最小”并行性,这可以帮...翻译 2018-08-29 11:19:37 · 4984 阅读 · 0 评论 -
Apache Spark---学习总结一
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)...转载 2018-08-28 08:49:50 · 758 阅读 · 0 评论 -
sparkRDD总结及小案例代码编写
RDD及其特点1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)3、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,...转载 2018-08-26 16:05:23 · 2123 阅读 · 0 评论 -
kafka(常见问题)
kafka常见问题1、如果想消费已经被消费过的数据consumer是底层采用的是一个阻塞队列,只要一有producer生产数据,那consumer就会将数据消费。当然这里会产生一个很严重的问题,如果你重启一消费者程序,那你连一条数据都抓不到,但是log文件中明明可以看到所有数据都好好的存在。换句话说,一旦你消费过这些数据,那你就无法再次用同一个groupid消费同一组数据了。原因:消费...原创 2018-08-26 15:38:40 · 508 阅读 · 0 评论 -
spark调优
性能调优 分配更多资源 1.1.1、分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量1.1.2、在哪里分配这些资源?在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数:/usr/local/spark/bin/spark-s...原创 2018-08-26 15:32:16 · 588 阅读 · 0 评论 -
kafka集群的安装及数据的导入导出
快速开始本教程假设您刚刚开始,并且没有现有的Kafka或ZooKeeper数据。由于Kafka控制台脚本对于基于Unix和Windows的平台是不同的,因此在Windows平台上使用bin\windows\而不是bin/将脚本扩展名更改为.bat。第1步:下载代码下载 2.0.0版本并解压缩它。 1 2 > tar -xzf kafka_2...翻译 2018-08-26 12:47:20 · 1475 阅读 · 0 评论 -
详解RDD、DataFrame、DataSet的关系
在spark中,RDD、DataFrame、Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性:1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,...原创 2018-09-29 10:46:44 · 328 阅读 · 0 评论