2019年01月_阿华田512

12月 11月 10月 08月 07月 06月 05月 04月 03月 02月 01月

原创 flink实战--读写Hbase

简介在Flink文档中，提供connector读取源数据和把处理结果存储到外部系统中。但是没有提供数据库的connector，如果要读写数据库，官网给出了异步IO(Asynchronous I/O)专门用于访问外部数据，详细可看：https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/stream/o...

2019-01-18 19:07:18 8184 35

原创 flink实战--flink集群的搭建与部署

flink实战案例一：flink集群的搭建与部署1.下载Flink压缩包下载地址：http://flink.apache.org/downloads.html根据集群环境的情况下载相应的版本的flink压缩包hadoop2.6，Scala2.11，所以下载：flink-1.5.0-bin-hadoop26-scala_2.11.tgz解压tar -zxf flink-1.5.0-bi...

2019-01-17 16:44:09 14828

原创 spark将数据写入ES（ElasticSearch）终极总结

简介spark接入ES可以使用多种方式，常见类型如下。将Map对象写入ElasticSearch 将case class 类对象写入ElasticSearch 将Json的字符串写入ElasticSearch本文主要介绍将case class 类对象写入ElasticSearch：也就是获取数据然后使用case class封装数据，然后在case class中选取一个字段当做 id，...

2019-01-09 13:11:47 31488 19

原创 flink实战--UDF

简介 UDF可以帮助我们极大地扩展了查询的表达能力，flink Sql自定义函数（UDF）和spark Sql 自定义函数原理是一样的，主要步骤无非就是，注册函数，自定义函数类实现flink自带的接口函数。和spark的UDF对比着来，下面介绍具体实现步骤。UDF的分类和定义UDF(User-Defined-Function)一进一出。 UDAF(User-...

2019-01-19 18:19:33 5711 2

原创 flink实战--资源分配与并行度（runtime）

简介 Flink运行时主要角色有两个：JobManager和TaskManager，无论是standalone集群，flink on yarn都是要启动这两个角色。JobManager主要是负责接受客户端的job，调度job，协调checkpoint等。TaskManager执行具体的Task。TaskManager为了对资源进行隔离和增加允许的task数，引入了slot的.........

2019-01-17 19:13:30 11741 10

原创 flink实战--DataSteam API终极总结

DataStream简介 DataStream是flink实时流处理的基本数据模型，DataSet是flink批处理的数据模型。本文主要介绍DataStream，在flink的实时流处理中，所有的流对象都会继承DataStrem这个类。DataStream在实际转换（算子）处理中也会被处理成下面的五个流对象，这几个流对象除了拥有共同的方法外还有自己独有的方法，下面将一一介绍D...

2019-01-15 15:53:56 1786 2

原创 flink实战--数据写入redis（redisSink）

简介通过flink操作redis其实我们可以通过传统的redis连接池Jpools进行redis的相关操作，但是flink提供了专门操作redis的Redis Sink，使用起来更方便，而且不用我们考虑性能的问题，接下来将主要介绍Redis Sink如何使用。RedisSink简介Redis Sink 提供用于向Redis发送数据的接口的类。接收器可以使用三...

2019-01-14 13:10:21 15944 2

原创 spark的反压与推测机制

反压背景在默认情况下，Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候，也就是每个批次数据处理的时间要比SparkStreaming 批处理间隔时间长；越来越多的数据被接收，但是数据的处理速度没有跟上，导致系统开始出现数据堆...

2019-01-09 20:35:32 1451 2

简介ES=elaticsearch简写， Elasticsearch是一个开源的高扩展的分布式全文检索引擎，它可以近乎实时的存储、检索数据；本身扩展性很好，可以扩展到上百台服务器，处理PB级别的数据。本质上是一个分布式nosql数据库，允许多台服务器协同工作，每台服务器可以运行多个 Elastic 实例。单个 Elastic 实例称为一个节点（node）。一组节点构成一个集群（cluster......

2019-01-08 14:48:28 34149