Flink(系列二)Flink的基本架构和原理

组件栈 API & Libraries层 基于流处理的:CEP(复杂事件处理库)、SQL&Table库 基于批处理的:FlinkML(机器学习库)、GElly(图处理库)等 API层: DataStream API(流计算)、DataSet API(批计...

2019-08-10 18:34:34

阅读数 31

评论数 0

Flink(系列一)Apache Flink简介

1.Flink是什么? Apache Flink 是一个框架和分布式处理引擎,用于在无界和有界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。 2.Flink的特点 Apache Flink 功能强大,支持开发和运行多种不同种类的应...

2019-07-27 14:58:06

阅读数 15

评论数 0

java1.8常用的Lamdba表达式 Stream API

Lambda表达式是什么,有什么用? Lambda表达式是一个匿名函数,运用Lambda表达式可以极大的提高编程效率和程序可读性。 Java 8 中的 Stream 是对集合(Collection)对象功能的增强,对集合进行各种非常便利、高效的聚合操作,或者大批量数据操作。 Stream 可以理...

2019-08-15 23:50:18

阅读数 7

评论数 0

HBase删除数据的原理

HBase 的删除操作并不会立即将数据从磁盘上删除,删除操作主要是对要被删除的数据打上标记。 当执行删除操作时,HBase 新插入一条相同的 KeyValue 数据,但是使 keytype=Delete,这便意味着数据被删除了,直到发生 Major compaction 操作时,数据才会被真正的...

2019-07-21 10:44:59

阅读数 32

评论数 0

HBase架构和原理

HBase简介 分布式、可扩展的大数据存储 版本化的非关系数据库 随机访问,实时读/写 大表 - 数十亿行 乘以 百万列 面向列数据库 K-V 存储 HBase和Hadoop / HDFS有什么区别? HDFS是一种分布式文件系统,非常适合存储大型文件。它不是通用文件系统,并且不提供...

2019-07-17 21:29:31

阅读数 1037

评论数 0

zookeeper的安装及简单介绍

zookeeper是什么? ZooKeeper是一种用于分布式应用程序的分布式开源协调服务。ZooKeeper的实现非常重视高性能,高可用性,严格有序的访问。 zookeeper中的leader,如果连接节点失败,自动恢复,zk服务启动时完成leader选举。 zookeeper的读取很...

2019-06-22 00:46:38

阅读数 20

评论数 0

什么是hadoop?centos7安装hadoop-3.2.0

什么是hadoop?(官网解释) Apache™Hadoop®项目开发了用于可靠,可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不...

2019-06-16 11:47:31

阅读数 47

评论数 0

google 的 LoadingCache 之 refreshAfterWrites 异步刷新机制

<dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId&g...

2019-06-14 16:23:59

阅读数 49

评论数 0

FutureTask设置方法执行的超时时间

import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import java.util.concurrent.FutureTask; import java.util.concurre...

2019-06-13 16:37:40

阅读数 109

评论数 0

提示
确定要删除当前文章?
取消 删除