HuiGe94v587-CSDN博客

原创自备常用工具

常用工具mavne打jar包可运行jar包mavne打jar包<plugin> <artifactId>maven-assembly-plugin</artifactId> <configuration>   <!--<manifest>

2021-08-13 11:37:28 200

原创 Kafka Streaming

Author：gaozhyBlog:http://www.gaozhy.cnCSDN: https://blog.csdn.net/qq_31871785Kafka Streaming概述Kafka Streams是一个用于构建应用程序和微服务的客户端库，其中的输入和输出数据存储在Kafka集群中。它结合了在客户端编写和部署标准Java和Scala应用程序的简单性，以及Kafka服务器端集...

2020-03-27 08:41:10 176

原创 Apache Kafka

Apache Kafka一、概述Apache Kafka是一个分布式的流数据平台，代表三层含义：Publish/Subscribe: 消息队列系统 MQ（Message Queue）Process: 流数据的实时处理（Stream Process）Store: 流数据会以一种安全、容错冗余存储机制存放到分布式集群中架构[外链图片转存失败,源站可能有防盗链机制,建议将图...

2020-03-27 08:40:32 276

原创 Flink

Apache Flink概述Flink是构建在Data Stream之上一款有状态计算框架。由于该款框架出现的较晚2014.12月发布，通常被人们认为是第3代流计算框架。第一代：MapReduce 2006年批磁盘 M->R 矢量 | 2014.9 Storm诞生流延迟低/吞吐小第二代：Spark RDD 2014.2 批内存 DAG （若干Stage） | 使用mic...

2020-03-25 08:27:40 234

原创 Linux_BigData常用配置/命令

Linux双网卡配置vi /etc/sysconfig/network-scripts/ifcfg-eth0 #配置网卡/更改IPrm -rf /etc/udev/rules.d/70-persistent-net.rules #删除MAC地址service network restart #重启网络service iptables stop #关闭防火墙chkco...

2019-11-14 23:02:21 509

原创 Kafka生产者/消费组常用配置意义

生产者acks = allbatch.size = 16384block.on.buffer.full = falsebootstrap.servers = [localhost:9092]buffer.memory = 33554432client.id =compression.type = noneconnections.max.idle.ms = 540000interc...

2019-11-14 22:36:12 1437

原创 Spark Structured Streaming

Spark Structured Streaming 结构化流Structured Streaming是一个构建在Spark SQL基础上可靠具备容错处理的流处理引擎。Structured Streaming提供快速，可扩展，容错，端到端的精确一次流处理，而无需用户推理流式传输。流数据处理的三种语义：最少一次（at least once）：流数据中的记录最少会被处理一次（1-n）最多...

2019-11-13 21:31:51 545

Spark SQL一、概述http://spark.apache.org/docs/latest/sql-programming-guide.htmlSpark SQL是Spark中一个模块，用以对结构化数据进行处理。SparkSQL在RDD之上抽象出来Dataset/Dataframe 这两个类提供了类似RDD的功能，也就意味用户可以使用map、flatMap、filter等高阶算子，同时...

2019-11-13 21:27:52 174

原创 Apache Spark

Apache Spark一、概述官方地址：http://spark.apache.org/Lightning-fast unified analytics engine : 快如闪电的统一分析引擎快如闪电：Spark基于内存式计算，分布式并行计算框架。不同于MapReduce框架，基于磁盘式计算，将Job粗粒度的分为MapTask、ReduceTask，并且必须通过网络进行数据...

2019-11-13 21:21:18 640

原创 Spark Streaming

Spark Streaminghttp://spark.apache.org/docs/latest/streaming-programming-guide.html#overviewSpark Streaming是Spark Core的进一步扩展，可以实现数据流的可扩展、高吞吐、容错处理。Spark Streaming处理的数据可以来源于多种方式，比如Kafka、Flume、Kinesis或...

2019-11-13 21:21:05 144

原创 Linux常用操作合集

分配IP自动分配:IP:dhclient(6/7)查看IP:CentOS6ifconfigCentOS7ip addr关闭防火墙:CentOS6service iptables stopCentOS7systemctl stop firewalld关闭防火墙自启:CentOS6chkconfig iptables off重启网络:CentOS6servi...

2019-11-13 21:06:01 147

qq_45431935的博客