![](https://img-blog.csdnimg.cn/20191113203403227.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
BigData
HuiGe94v587
这个作者很懒,什么都没留下…
展开
-
Kafka Streaming
Author:gaozhyBlog:http://www.gaozhy.cnCSDN: https://blog.csdn.net/qq_31871785Kafka Streaming概述Kafka Streams是一个用于构建应用程序和微服务的客户端库,其中的输入和输出数据存储在Kafka集群中。它结合了在客户端编写和部署标准Java和Scala应用程序的简单性,以及Kafka服务器端集...原创 2020-03-27 08:41:10 · 176 阅读 · 0 评论 -
Apache Kafka
Apache Kafka一、概述Apache Kafka是一个分布式的流数据平台,代表三层含义:Publish/Subscribe: 消息队列系统 MQ(Message Queue)Process: 流数据的实时处理(Stream Process)Store: 流数据会以一种安全、容错冗余存储机制存放到分布式集群中架构[外链图片转存失败,源站可能有防盗链机制,建议将图...原创 2020-03-27 08:40:32 · 276 阅读 · 0 评论 -
Flink
Apache Flink概述Flink是构建在Data Stream之上一款有状态计算框架。由于该款框架出现的较晚2014.12月发布,通常被人们认为是第3代流计算框架。第一代:MapReduce 2006年 批 磁盘 M->R 矢量 | 2014.9 Storm诞生 流 延迟低/吞吐小第二代:Spark RDD 2014.2 批 内存 DAG (若干Stage) | 使用mic...原创 2020-03-25 08:27:40 · 234 阅读 · 0 评论 -
Linux_BigData常用配置/命令
Linux双网卡配置vi /etc/sysconfig/network-scripts/ifcfg-eth0 #配置网卡/更改IPrm -rf /etc/udev/rules.d/70-persistent-net.rules #删除MAC地址service network restart #重启网络service iptables stop #关闭防火墙chkco...原创 2019-11-14 23:02:21 · 509 阅读 · 0 评论 -
Kafka生产者/消费组常用配置意义
生产者acks = allbatch.size = 16384block.on.buffer.full = falsebootstrap.servers = [localhost:9092]buffer.memory = 33554432client.id =compression.type = noneconnections.max.idle.ms = 540000interc...原创 2019-11-14 22:36:12 · 1437 阅读 · 0 评论 -
Spark Structured Streaming
Spark Structured Streaming 结构化流Structured Streaming是一个构建在Spark SQL基础上可靠具备容错处理的流处理引擎。Structured Streaming提供快速,可扩展,容错,端到端的精确一次流处理,而无需用户推理流式传输。流数据处理的三种语义:最少一次(at least once): 流数据中的记录最少会被处理一次(1-n)最多...原创 2019-11-13 21:31:51 · 545 阅读 · 0 评论 -
Spark SQL
Spark SQL一、概述http://spark.apache.org/docs/latest/sql-programming-guide.htmlSpark SQL是Spark中一个模块,用以对结构化数据进行处理。SparkSQL在RDD之上抽象出来Dataset/Dataframe 这两个类提供了类似RDD的功能,也就意味用户可以使用map、flatMap、filter等高阶算子,同时...原创 2019-11-13 21:27:52 · 174 阅读 · 0 评论 -
Spark Streaming
Spark Streaminghttp://spark.apache.org/docs/latest/streaming-programming-guide.html#overviewSpark Streaming是Spark Core的进一步扩展,可以实现数据流的可扩展、高吞吐、容错处理。Spark Streaming处理的数据可以来源于多种方式,比如Kafka、Flume、Kinesis或...原创 2019-11-13 21:21:05 · 144 阅读 · 0 评论 -
Apache Spark
Apache Spark一、概述官方地址:http://spark.apache.org/Lightning-fast unified analytics engine : 快如闪电的统一分析引擎快如闪电:Spark基于内存式计算,分布式并行计算框架。不同于MapReduce框架,基于磁盘式计算,将Job粗粒度的分为MapTask、ReduceTask,并且必须通过网络进行数据...原创 2019-11-13 21:21:18 · 640 阅读 · 0 评论