苏启豪的博客

爱技术,爱努力,爱生活~

HBase(二)HBase的优化策略

HBase 数据表优化 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式数据库,但是当并发量过高或者已有数据量很大时,读写性能会下降。我们可以采用如下方式逐步提升 HBase 的检索速度。 预先分区 默认情况下,在创建 HBase 表的时候会自动创建一个 Region 分区,当导入...

2019-08-14 09:05:14

阅读数 32

评论数 0

HBase(一)HBase的读写流程

Region是HBase数据存储和管理的基本单位。在HBase的一个表中,可以包含一个或多个region。对于一个region,每个列族都会对应一个store,用来存储该列族的数据。每个store都有一个写缓存memstore,用于缓存写入的数据。 一、写过程 (1) Client先从缓存中...

2019-08-14 09:04:52

阅读数 30

评论数 0

Hadoop(三)HBase原理解析

HBase定义 HBase 是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PC Server上搭建 大规模结构化存储集群。    HBase 是Google Bigtable 的开源实现,与Google Bigtable 利用GFS作为其文件存储系统类似, H...

2019-06-30 22:41:17

阅读数 22

评论数 0

Hadoop(二)Hive原理解析

一、Hive的起源 Hive起源于Facebook(一个美国的社交服务网络)。Facebook有着大量的数据,而Hadoop是一个开源的MapReduce实现,可以轻松处理大量的数据。但是MapReduce程序对于Java程序员来说比较容易写,但是对于其他语言使用者来说不太方便。此时Facebo...

2019-06-30 22:41:03

阅读数 15

评论数 0

Hadoop(一)HDFS的工作原理

一、简介 HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统。 二、HDFS特点 ①保存多个副本,且提供容错机制,副本丢失...

2019-05-30 09:51:09

阅读数 26

评论数 0

Flink(十一)Flink连接Kafka输出到HDFS

一、配置项目的依赖 其中flink-connector-filesystem_2.11是将Hadoop作为Flink的BucketingSink接入, hadoop-hdfs、hadoop-common、hadoop-client解决Jar包依赖的问题,2.7.3为hadoop的版本号。 ...

2019-05-29 16:02:04

阅读数 206

评论数 0

Flink(十)Flink的重启策略

Flink的重启策略 Flink支持不同的重启策略,这些重启策略控制着job失败后如何重启。集群可以通过默认的重启策略来重启,这个默认的重启策略通常在未指定重启策略的情况下使用,而如果Job提交的时候指定了重启策略,这个重启策略就会覆盖掉集群的默认重启策略。 一、概览 默认的重启策略是通过F...

2019-05-07 15:15:53

阅读数 35

评论数 0

Flink(九)Flink自定义Sink注入Spring容器

一、配置Flink相关属性 public class FlinkKafkaStreaming { /** * 加载Kafka配置 */ @Autowired private KafkaProperties kafkaProperties; public void main(...

2019-05-07 15:15:40

阅读数 389

评论数 0

Flink(八)Flink的Parallelism并行度

一、Flink的Parallel Execution 实例 1.Operator Level final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); ​...

2019-04-18 13:20:54

阅读数 374

评论数 0

Flink(七)Flink的Window和Time

一、Flink 自带的 window Flink DataStream API 提供了 Time 和 Count 的 window,同时增加了基于 Session 的 window。同时,由于某些特殊的需要,DataStream API 也提供了定制化的 window 操作,供用户自定义 win...

2019-04-18 13:20:46

阅读数 81

评论数 0

Flink(六)Flink自定义Data Sink

前言 这篇文章将写一个 demo 教大家将从 Kafka Source 的数据 Sink 到 MySQL 中去。 准备工作 我们先来看下 Flink 从 Kafka topic 中获取数据的 demo,首先你需要安装好了 Flink 和 Kafka 。 运行启动 Flink、Zookepe...

2019-04-18 13:20:39

阅读数 134

评论数 0

Flink(五)Flink的Data Sinks

前言 如下图,Source 就是数据的来源,中间的 Compute 其实就是 Flink 干的事情,可以做一系列的操作,操作完后就把计算后的数据结果 Sink 到某个地方。(可以是 MySQL、ElasticSearch、Kafka、Cassandra 等)。这里我说下自己目前做告警这块就是把 ...

2019-04-18 13:20:30

阅读数 29

评论数 0

Flink(四)Flink的Transformation

一、前言 Flink 程序的结构 Flink 应用程序结构就是如上图所示: 1、Source: 数据源,Flink 在流处理和批处理上的 source 大概有 4 类:基于本地集合的 source、基于文件的 source、基于网络套接字的 source、自定义的 source。自定义的...

2019-04-18 09:51:44

阅读数 42

评论数 0

Flink(三)Flink自定义Data Source

一、Flink Kafka source:Flink默认实现的自定义Data Source 准备工作 我们先来看下 Flink 从 Kafka topic 中获取数据的 demo,首先你需要安装好了 Flink 和 Kafka 。 运行启动 Flink、Zookepeer、Kafka ...

2019-04-18 09:51:31

阅读数 36

评论数 0

Flink(二)Flink的Data Sources

一、前言 Data Sources 是什么呢?就字面意思其实就可以知道:数据来源。 Flink 做为一款流式计算框架,它可用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时的处理些实时数据流,实时的产生数据流结果,只要数据源源不断的过来,Flink 就能够一直计算下去,...

2019-04-18 09:51:22

阅读数 35

评论数 0

Flink(一)Flink的简介

一.Flink的引入 这几年大数据的飞速发展,出现了很多热门的开源社区,其中著名的有Hadoop、Storm,以及后来的Spark,他们都有着各自专注的应用场景。Spark掀开了内存计算的先河,也以内存为赌注,赢得了内存计算的飞速发展。Spark的火热或多或少的掩盖了其他分布式计算的系统...

2019-04-18 09:51:11

阅读数 355

评论数 0

JPA简介及其使用详解

一、Spring data JPA简介 Spring data JPA是Spring在ORM框架,以及JPA规范的基础上,封装的一套JPA应用框架,并提供了一整套的数据访问层解决方案。 二、Spring data JPA的功能 Spring data JPA的功能非常的强大,这里我们先跳过环...

2019-04-15 16:08:00

阅读数 438

评论数 0

SpringBoot-Kafka使用(五)

一、消息过滤器 消息过滤器 消息过滤器可以在消息抵达监听容器前被拦截,过滤器根据系统业务逻辑去筛选出需要的数据再交由KafkaListener处理。 配置消息其实是非常简单的额,只需要为监听容器工厂配置一个RecordFilterStrategy(消息过滤策略),返回true的时候消息将会被...

2019-03-16 23:36:24

阅读数 127

评论数 0

SpringBoot-Kafka使用(四)

一、实现消息转发ReplyTemplate 目的 可以使用转发功能实现业务解耦,系统A从Topic-A中获取到消息,进行处理后转发到Topic-B中,系统B监听Topic-B获取消息再次进行处理,这个消息可以是订单相关数据,系统A处理用户提交的订单审核,系统B处理订单的物流信息等等。 实现方...

2019-03-16 23:36:17

阅读数 342

评论数 0

SpringBoot-Kafka使用(三)

一、Kafka的事务 为什么要使用Kafka事务 在日常开发中,数据库的事务几乎是必须用到的,事务回滚不一定在于数据增删改异常,可能系统出现特定逻辑判断的时候也需要进行数据回滚,Kafka亦是如此,我们并不希望消息监听器接收到一些错误的或者不需要的消息。SpringBoot使用数据库事务非常简...

2019-03-16 23:36:08

阅读数 465

评论数 3

提示
确定要删除当前文章?
取消 删除