自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿华田的博客

博客专注于大数据方向,谢谢观看!!!

  • 博客(120)
  • 资源 (12)
  • 论坛 (1)
  • 收藏
  • 关注

原创 flink实战--metrics监控与rest api

Flink metrics简介 Flink的metrics是Flink公开的一个度量系统,允许收集flink程序的公开指标到外部系统,我们也可以自定义指标通过metric收集,实际开发时经常需要查看当前程序的运行状况,flink 提供了 UI 界面,有比较详细的统计信息。但是 UI 界面也有不完善的地方,比如想要获取 flink 的实时吞吐。本文将详细介绍如何通过metric...

2019-05-24 17:39:13 12739 7

原创 flink实战--读写Hbase

简介 在Flink文档中,提供connector读取源数据和把处理结果存储到外部系统中。但是没有提供数据库的connector,如果要读写数据库,官网给出了异步IO(Asynchronous I/O)专门用于访问外部数据,详细可看:https://ci.apache.org/projects/flink/flink-docs-release-1.6/dev/stream/o...

2019-01-18 19:07:18 6984 35

原创 flink实战--flink集群的搭建与部署

flink实战案例一:flink集群的搭建与部署1.下载Flink压缩包下载地址:http://flink.apache.org/downloads.html根据集群环境的情况下载相应的版本的flink压缩包hadoop2.6,Scala2.11,所以下载:flink-1.5.0-bin-hadoop26-scala_2.11.tgz解压tar -zxf flink-1.5.0-bi...

2019-01-17 16:44:09 14234

原创 spark将数据写入ES(ElasticSearch)终极总结

简介spark接入ES可以使用多种方式,常见类型如下。将Map对象写入ElasticSearch 将case class 类对象写入ElasticSearch 将Json的字符串写入ElasticSearch本文主要介绍将case class 类对象写入ElasticSearch:也就是获取数据然后使用case class封装数据,然后在case class中选取一个字段当做 id,...

2019-01-09 13:11:47 27841 19

原创 flink实战--水印(watermark)终极总结

水印(waterMark) 了解水印前需要了解事件时间(eventTime)和处理时间(processTime)的概念,参考博客:https://blog.csdn.net/aA518189/article/details/82908993了解事件时间。 Flink通过水印来推进事件时间。水印是嵌入在流中的常规记录。计算程...

2018-12-24 15:12:23 5611 2

原创 flink实战--flinkSQL入门大全

FlinkSQL概念介绍Table API & SQL Apache Flink具有两个关系API - 表API和SQL - 用于统一流和批处理。Table API是Scala和Java的语言集成查询API,允许以非常直观的方式组合来自关系运算符的查询,Table API和SQL接口彼此紧密集成,以及Flink的DataStream和DataSet A...

2018-11-12 18:07:03 20516 3

原创 flink实战--flink原理解析

Flink出现的背景 我们知道目前流处理的主要流行的计算引擎有,Storm,SparkStreaming。但是这个两个计算引擎都有自己的局限性。Storm实现了低延迟,但是目前还没有实现高吞吐,也不能在故障发生的时候准确的处理计算状态(将数据从一个事件保存到另一个事件的,这些保留下来的是数据较计算状态),同时也不能实现exactly-once。SparkStreaming通过微批处理方法...

2018-09-30 15:40:22 8135 4

原创 flink实战--实战案例

本文以flink本地模式 进行各个场景的实战开发Flink本地运行模式Flink支持两种不同的本地运行机制: LocalExecutionEnvironment启动完整的Flink运行环境,包括一个JobManager和一个TaskManager。这些包含了内存管理以及在集群模式下运行时所运行的所有内部算法。 LocalEnvironment也可以向Flink传入用户自定义配置。...

2018-09-18 11:52:31 8069 8

原创 kafka工作原理与使用

1.Kafka概述1.1.什么是KafkaApache Kafka是分布式发布-订阅消息系统(消息中间件)。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一种快速、可扩展的、设计内在就是分布式的,分区的和可复制的提交日志服务。传统消息中间件服务RabbitMQ、Apache ActiveMQ等,Apache Kafka与传统消息系统相比,有以下优点...

2018-06-30 20:43:01 917

原创 kafka集群的搭建与使用

1.下载Apache kafka 官方: http://kafka.apache.org/downloads.htmlScala 2.11 -kafka_2.11-0.10.2.0.tgz(asc,md5)2.Kafka集群安装第一步:安装JDK &配置JAVA_HOME第二步:安装Zookeeper 参照Zookeeper官网搭建一个ZK集群, 并启动Z...

2018-06-30 20:33:57 613

原创 Hadoop之hdfs的工作原理和安装

一 HDFS简介(Hadoop Distributed File System)1简介:是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很...

2018-04-08 22:32:07 523

原创 redis的安装与使用

下载redis因为redis一般会在linux系统进行安装,所以下载时要下载linux系统的安装包。官网地址:http://redis.io/下载地址:http://download.redis.io/releases/redis-3.2.8.tar.gz因为Redis是用c语言写的 需要需要现编译在安装编译工具:make BuildFileant build.xml...

2018-04-01 16:52:26 243

原创 基于ssm三大框架实现登录注册功能的配置过程

第一步  ssm jar包整合,本人的下载资源里面有整合的jar包主要有:ssm整合jar包 ,jstl,数据库连接,josn junit,等jar包第二步,建立各类包和配置文件,尽量把各个配置文件分开,统一放在一个自己建立的config文件夹中,容易区分,后面也好检查更改主要配置,mybatis,spring—mybatis,和springmvc,以及web.xml和jdbc(数据库连接信息)j...

2018-03-17 16:35:13 1851

原创 flink实战--sort-shuffle使用与分析

简介 Flink 作为批流一体的大数据计算引擎,大规模批数据处理也是 Flink 数据处理能力的重要组成部分。随着 Flink 的版本迭代,其批数据处理能力也在不断增强,sort-shuffle 的引入,使得 Flink 在应对大规模批数据处理任务时更加游刃有余。一、数据 Shuffle 简介 数据 shuffle 是批数据处理作业的一个重要阶段,在这一阶段中,上游处理节点的输出数据会被持久化到外部存储中,之后下游的计算节点会读取这些数据并进行处理。这些持久化...

2021-11-16 19:56:33 9

原创 es(Elasticsearch) -- 映射参数解析

1.analyzer功能:给文本字段设置分词器。默认对索引和查询都是有效的使用案例:PUT blog{ "mappings": { "properties": { "title":{ "type":"text", "analyzer": "ik_smart" } } }}2.search_analyzer功能:设置查询时候的分词器。默认情况下,如果没有配置 search_analyzer,则查询时,

2021-09-24 18:25:55 107

原创 es(Elasticsearch) -- 元字段解析

简介 Elasticsearch中每个文档都有自己的元数据,为了方便管理元数据,es提供元字段。元数据主要分为身份元数据、索引元数据、文档元数据、路由元数据以及其他类型的元数据 ,同时索引创建时我们还可以自定义元字段。本文将详细介绍不同元字段的用途和使用方式。1.身份元数据 _index:文档所属索引 , 自动被索引,可被查询,聚合,排序使用,或者脚本里访问 _type:文档所属类型,自动被索引,可被查询,聚合,排序使用,或者脚本里访问 _id:文档的唯一标...

2021-09-24 17:35:07 39

原创 flink实战 -- flink on yarn 任务日志收集与监控

背景 在 Flink on yarn 的模式下,taskManager的日志会存储到所在的DataNode上,当 Flink 任务发生异常,产生异常日志时,需要我们第一时间感知任务已经出现异常,避免影响业务。因此我们需要将Flink任务的日志实时收集起来,出现异常日志立刻报警,做的真正意义上的实时报警,而不是等flink任务掉线了在发出报警。收集到了任务日志,即使任务掉线了也方便我们通过日志定位问题。日志收集方案 在 Flink 1.1...

2021-09-02 21:00:03 383

原创 flink实战--延迟监控 metrics.latency.interval

背景 流处理系统进行数据计算时,数据延迟是不可接受的,但是又不可避免的。因此延迟监控在流处理框架中ji'wei

2021-06-05 17:55:20 255 1

原创 用一次就会爱上的Google Guava 类库

Google Guava 类库简介 Guava 是一个 Google 的基于java1.6的类库集合的扩展项目,包括 collections, caching, primitives support, concurrency libraries, common annotations, string processing, I/O, 等等. 对集合Collection、缓存Cache、原生数据类型支持、并发库、通用注解、字符串处理和IO工具,都提供了高效的支持.这些...

2021-04-10 17:34:18 67

原创 flink实战--flinksql连接器添加对clickhouse的支持

简介 在目前的所有的flink版本中,flinksql原生还不支持直接ddl的当时创建clickhouse表,进行业务开发。需要我们自己实现clickhouse的connector。本文将详细介绍通过改造原生flink-connector-jdbc添加对clickhouse的支持。步骤 第一步:模仿MySQLDialect编写自己的ClickHouseDialect,代码如下:public class ClickHouseDialect extends...

2021-02-04 20:31:49 753

原创 flink实战--Application模式下java程序将flink任务提交到yarn集群

扫一扫加入大数据公众号和技术交流群,了解更多大数据技术,还有免费资料等你哦简介 对于单个flink任务提交到yarn集群,通过命令行的方式是能接受的,但是我们开发实时计算平台就需要通过代码的方式将我们管理的flink任务提交到yarn集群上去。本文主要介绍flink1.11新的部署模式–Application模式,具体Application模式和其他提交方式的区别可以参考我的这篇文章:flink on yarn。程序提交flink任务的步骤第一步:引入相关的配置到...

2021-01-19 19:42:42 967

原创 flink实战--CheckpointedFunction 自定义带有状态的算子

简介CheckpointedFunction是stateful transformation functions的核心接口,用于跨stream维护state snapshotState在checkpoint的时候会被调用,用于snapshot state,通常用于flush、commit、synchronize外部系统 initializeState在parallel function初始...

2020-12-09 16:06:37 243

原创 flink实战--flink日志框架配置与使用详解

Flink 日志框架 在 Flink 1.11 之前,Flink 使用的日志框架是 Log4j,配置信息在flink/conf/log4j.properties中。配置文件会将 JobManager 和 TaskManager 的日志分别打印在不同的文件中。Flink 1.11.1 版本对 UI 进行了优化,会将JobManager 和 TaskManager 的日志都打印在一个文件里面,但任务跑时间长的话,日志文件会非常大,查看日志页面时出现卡顿的情况,所以可...

2020-12-04 20:56:31 978

原创 git--实战使用总结

Git环境 配置需要注册一个github账号Git 提供了一个叫做 git config 的工具,专门用来配置或读取相应的工作环境变量。在你下载的git客户端需要配置这些信息,进行账户的初始化这些环境变量,决定了 Git 在各个环节的具体工作方式和行为。这些变量可以存放在以下三个不同的地方:/etc/gitconfig 文件:系统中对所有用户都普遍适用的配置。若使用 git c...

2020-11-30 11:19:02 198

原创 ClickHouse实战--clickhouse sql入门大全

一、ck建表语句与数据库相比,创建表的语法要复杂得多(请参阅参考资料。通常,CREATE TABLE语句必须指定三个关键事项:要创建的表的名称。 表模式,即列及其数据类型的列表。 表引擎及其设置,它确定有关如何物理执行对该表的查询的所有详细信息。二、创建库CREATE/ATTACH DATABASE zabbix ENGINE = Ordinary;ATTACH 也可以建库,但是metadata目录下不会生成.sql文件,一般用于metadata元数据sql文件被删除后,恢复库表结构使

2020-10-20 12:15:07 1612

原创 ClickHouse实战--clickhouse使用场景与原理解析

ClickHouse简介ClickHouse是Yandex提供的一个开源的列式存储数据库管理系统,多用于联机分析(OLAP)场景,可提供海量数据的存储和分析,同时利用其数据压缩和向量化引擎的特性,能提供快速的数据搜索。注意到ClickHouse是一个数据库管理系统,而不是单个数据库。ClickHouse 特点读多于写 大宽表,读大量行但是少量列,结果集较小通常存在一张或是几张多列的大宽表,列数高达数百甚至数千列。对数据分析处理时,选择其中的少数几列作为维度列、其他少数几列作为指标列,然后.

2020-10-20 11:30:28 6757 3

原创 flink实战--flink on k8s (Kubernetes)

Flink on Kubernetes 的发展历史 在 Flink 的早期发行版 1.2 中,已经引入了 Flink Session 集群模式,用户得以将 Flink 集群部署在 Kubernetes 集群之上。随着 Flink 的逐渐普及,越来越多的 Flink 任务被提交在用户的集群中,用户发现在 session 模式下,任务之间会互相影响,隔离性比较差,因此在 Flink 1.6 版本中,推出了 Per Job 模式,单个任务独占一个 Flink 集群,很大的程度上...

2020-10-19 17:40:34 1715 2

原创 flink实战--HistoryServer配置与应用

背景 回想一下,在实际线上开发flink任务时是否存在这样需求,flink实时任务夜间掉线了,此时我们再去查看yarn的页面最多也只能查看JobManager 的日志了,像检查点,处理的数据量,水印等指标如果没有Metrics监控,那么很遗憾这些信息就丢失了,对我们分析任务出现的bug很不友好,此时flink的HistoryServer出现了,本文将详细介绍HistoryServer的配置与使用。HistoryServer flink任务停止后,JobMan...

2020-10-15 17:30:26 515

原创 flink实战--flinksql使用Streaming Sink将数据流写入文件系统

扫一扫加入大数据公众号和技术交流群,了解更多大数据技术,还有免费资料等你哦Streaming Sink简介 Streaming Sink支持流的写操作,基于Flink的流文件接收器将数据写入文件。行编码格式是csv和json。批量编码的格式有parquet, orc和avro。极大的方便了我直接编写SQL,将流数据插入到非分区表中。如果是分区表,则可以配置分区相关的操作,本篇文章将详细介绍Streaming Sink相关的概念和使用方式。滚动策略 ...

2020-09-22 18:29:33 728

原创 mac环境下搭建docker 和kubernetes(k8s)

扫一扫加入大数据公众号和技术交流群,了解更多大数据技术,还有免费资料等你哦下载docker命令方式:brew cask install docker手动下载:https://www.runoob.com/docker/macos-docker-install.html如同 macOS 其它软件一样,安装也非常简单,双击下载的 .dmg 文件,然后将鲸鱼图标拖拽到 Application 文件夹即可。镜像加速国内从 DockerHub 拉取镜像有时会遇到困难,此时可以.

2020-09-15 20:07:52 865

原创 flink实战--CDC (Change Data Capture )终极总结

CDC简介 CDC,Change Data Capture,变更数据获取的简称,用于从数据库中捕获已提交的更改并将这些更改传播到下游使用者。这些变更可以包括INSERT,DELETE,UPDATE等.在Flink社区中,能够轻松地将这些变更日志提取并解释为Table API / SQL的功能是Flink社区中非常需要的功能-现在Flink 1.11可以实现这一功能。 为了将Table API / SQL的范围扩展到CDC之类的用例,Flink 1....

2020-08-12 15:49:55 2209

原创 Java版cityHash64 与cityHash128算法的实现

简介 cityhash系列字符串散列算法是由著名的搜索引擎公司Google 发布的 (http://www.cityhash.org.uk/)。Google发布的有两种算法:cityhash64 与 cityhash128。它们分别根据字串计算 64 和 128 位的散列值。这些算法不适用于加密,但适合用在散列表等处。目前cityHash算法只有C++和python的实现,java目前还没有开源的cityHash算法,下面通过java代码实现java版的cityHash64 与...

2020-08-07 17:39:47 1075

原创 flink实战--StreamingFileSink使用大全

简介 Flink目前对于外部Exactly-Once写支持提供了两种的sink,一个是Kafka-Sink,另一个是Hdfs-Sink,这两种sink实现的Exactly-Once都是基于Flink checkpoint提供的hook来实现的两阶段提交模式来保证的,主要应用在实时数仓、topic拆分、基于小时分析处理等场景下。本篇将会介绍Streamin...

2020-06-22 15:09:29 2451 1

原创 flink实战--数据写入clickhouse(ClickHouseSink)

简介 Clickhouse 支持http协议的web方式进行访问,也支持JDBC或者ODBC的驱动程序的客户端进行访问,我们使用Flink操作Clickhouse ,可以想操作mysql一样通过JDBC的方式进行访问,本文将具体介绍flink实时写入Clickhouse的实现方式,对于flink自定义sink,参考上篇博客:https://blog.csdn.net/aA518189/article/details/86544844。Flink数据写入Clickhouse步骤...

2020-06-06 18:24:56 4149 4

原创 ClickHouse实战--clickhouse安装与使用

扫一扫加入大数据公众号和技术交流群,了解更多大数据技术,还有免费资料等你哦Clickhouse安装方式单机安装 容器安装 集群安装建议:测试与学习时,使用容器安装方便上手与学习Ubuntu/Debian安装sudo apt-key adv --keyserver keyserver.ubuntu.com --recv E0C56BD4 # optionalsudo apt-add-repository "deb http://repo.yandex.ru/clic.

2020-06-06 17:00:41 6255

原创 flink实战--flink读取hdfs目录下多个文件(递归、正则匹配)

简介 在日常开发中读取hdfs文件是很频繁的操作,并且在这个过程中我们可能会有如下需求: 读取某个目录下的所有的文件,也就是递归读取hdfs的目录 按条件读取hdfs,也就是正则表达式读取目录下的文件看到这些需求,我们可能想到spark都支持的不错,Flink支持的怎么样呢?本篇文章详细介绍一下Flink如何实现,递归,正则表达式等方式读取hdfs的目录。Flink递归读取hdfs上多路径文件 比如,读取如下dat...

2020-05-29 16:23:28 4319 4

原创 flink实战--如何自定义具有Exactly-Once语义的sink(TwoPhaseCommitSinkFunction)

Exactly-Once 语义 指的是每个输入的事件只影响最终结果一次。即使机器或软件出现故障,既没有重复数据,也不会丢数据。Flink一次性语义实现原理 说到flink的Exactly-Once,要区分实现的范围。在 Flink 1.4.0 之前,Exactly-Once 语义仅限于 Flink 应用程序内部,并没有扩展到 Flink 数据处理...

2020-04-21 09:56:13 1552

原创 PyFlink实战--PyFlink安装与入门介绍

简介 PyFlink 是什么?简单点说就是 Flink + Python,也就是 Flink on Python,Flink 从 1.9.0 版本开始增加了对 Python 的支持(PyFlink)。那么到底 Flink on Python 意味着这什么呢?那么一个非常容易想到的方面就是能够让 Python 用享受到 Flink 的所有功能。其实不仅如此...

2020-03-17 22:57:33 6466 4

原创 flink实战--状态管理(State TTL、Operator state、Keyed state)

简介 使用flink进行实时计算中,会遇到一些状态数不断累积,导致状态量越来越大的情形。例如,作业中定义了超长的时间窗口,或者在动态表上应用了无限范围的 GROUP BY 语句,以及执行了没有时间窗口限制的双流 JOIN 等等操作。对于这些情况,经常导致堆内存出现 OOM,或者堆外内存(RocksDB)用量持续增长导致超出容器的配额上限,造成作业的频繁崩溃。从 ...

2020-03-13 10:07:27 1807 1

原创 flink实战--反压机制与背压指标计算原理

简介 流处理系统必须能优雅地处理反压(backpressure)问题,因为实时流处理必然会遇到产这样的场景:短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。反压如果不能得到正确的处理,可能会导致资源耗尽甚至系统崩溃,目前主流的流处理系统Storm/Spark Streaming/Flink 都已经提供了反压机制,不过其实现各不相同。spark的反压机制参考...

2020-03-12 11:52:46 1617 2

大数据测试数据集

本数据是淘宝开源的用户真是产生的数据,包括商品id,用户id,商品品类id,生成时间,用户行为:pv,cut(加入购车车)。。。。

2018-12-20

flink-connector-jdbc_2.11-1.11.2.jar

flink本身DDL的方式目前还不支持clickhouse,本jar添加对clickhouse的支持,导入到flink/lib下即可使用

2021-02-24

最全面的flink入门编程案例

本文的非常详细的介绍了 flink、如何进行大数据开发的,包含flink读取kafka、文本读取,hdfs

2018-09-18

flink实践案例

本文档总结了国内各个互联网巨头使用flink的案例,有美团,唯品会,滴滴,360等,如何实现对flink的各种应用,同时里面也包含对flink使用的总结。

2018-12-20

基于ssm框架的XX商城系统

本系统是基于ssm框架,模仿小米商城做的一个商城系统,对于学习ssm框架有很大的帮助

2018-03-19

基于SSM框架开发的共享单车管理系统

本系统是一个基于SSM框架的共享单车后台系统,里面还包括 AJAX,JQUERY,地图定位等技术使用,对于正在学习SSM框架的非常适合,有一定的实战意义。

2018-06-06

flink需要的jersey-core和jersey-client

如果flink提交jar到yarn上运行报如下错误:java.lang.NoClassDefFoundError: com/sun/jersey/core/util/FeaturesAndProperties,在flink的lib包里面添加这两个jar包

2019-03-01

连接池 所有jar包

c3p0,dbcp,druid,DButils,所有连接池的jar包,以及工具DBUtils jia包

2018-03-16

基于SSH的新闻发布系统

本系统是一个基于SSH框架开发的新闻发布系统,使用的是MySql数据库,非常适合初学者练习ssh框架,有一定的实战意义

2018-06-06

josn jar包

josn jar包,在web开发中josn数据用的还是比较多的,使用也不叫简单

2018-03-16

python电子书大全

本资料包括三本完整的python电子书,python核心编程,python从入门到实践,python编程思想

2019-01-01

ssm整合jar包

ssm三大框架所有的jar包整合,里面有所有框架所以需的jar包

2018-03-16

请求 删除资源

发表于 2019-01-24 最后回复 2019-01-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除