- 博客(17)
- 资源 (7)
- 收藏
- 关注
原创 大数据计算引擎之Flink Flink CEP复杂事件编程
原文地址:大数据计算引擎之Flink Flink CEP复杂事件编程复杂事件编程(CEP)是一种基于流处理的技术,将系统数据看作不同类型的事件,通过分析事件之间的关系,建立不同的时事件系序列库,并利用过滤、关联、聚合等技术,最终有简单事件产生高级事件,并通过模式规则的方式对重要信息进行跟踪和分析,从实时数据中心发掘有价值的信息。复杂事件处理主要应用于防范网络欺诈、设备故障检测、风险规避和智能...
2019-12-26 16:06:10 969
原创 大数据开发实战系列之电信客服(1)
原文地址: 大数据开发实战系列之电信客服(1)大数据实战开发系列,以实战为主,辅以一些基础知识,关于电信客服,在网上也有很多的资料,这里我自然会去参考网上的资料,程序的整体设计是在今天开始的,老夫尽量在本周末钱结束这个电信客服的程序编写。因为我也是一个学习者,所以在程序编写过程中难免会存在问题,有问题还请大家指出,有则改之,无则加勉。大家共同进步。本教程适合接触大数据开发不久或者还没接触大数...
2019-12-25 11:25:39 933 1
原创 大数据计算引擎之Flink Flink状态管理和容错
这里将介绍Flink对有状态计算的支持,其中包括状态计算和无状态计算的区别,以及在Flink中支持的不同状态类型,分别有 Keyed State 和 Operator State 。另外针对状态数据的持久化,以及整个 Flink 任务的数据一致性保证,Flink 提供了 Checkpoint 机制处理和持久化状态结果数据,随后对状态数据 Flink 提供了不同的状态管理器来管理状态数据,例如: MemoryStateBackend 等。
2019-12-24 17:11:39 436
原创 开发共享资源
原文地址:开发共享资源这里有着老夫自进入这个行业以来收集到的一些书籍信息,视频信息。后期老夫会将这个提取码放到老夫的微信公众号上,可自行根据提示获取,或者我放到老夫的Gitee上,供大家下载均可,大家如果有想要的书籍,也可以问候老夫,点击上面的原文地址,在文末留言就好了。记得留下您的邮箱。书籍类Java学习系列Java书籍名提取码Java编程思想第四版84s2...
2019-12-18 11:06:54 133 1
原创 大数据存储框架之Elastaticsearch(4) 提升性能
原文地址:大数据存储框架之Elastaticsearch(4) 提升性能本篇博文主要内容:批量处理、多条获取和多条搜索API接口刷新、冲刷、合并和存储过滤器缓存和过滤器调优调优脚本查询预热器均衡JVM堆大小和操作系统缓存前言Elastaticsearch 在进行做进行索引,搜索和抽取统计数值的聚集操作时,通常被认为是很快的。“快”是个模糊的概念。...
2019-12-18 09:04:13 836
原创 大数据计算引擎之Spark(2) SparkCore-RDD
本文地址:大数据计算引擎之Spark(2) SparkCore-RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中,后续的查询能够重用工作集,...
2019-12-12 18:16:48 139
原创 大数据存储框架之Elastaticsearch权威指南阅读(1) 基础篇(1) 集群内原理
本文地址: 大数据存储框架之Elastaticsearch权威指南阅读(1) 基础篇(1) 集群内原理ElasticSearch 的主旨是随时可用和按需扩容。 而扩容可以通过购买性能更强大( 垂直扩容 ,或 纵向扩容 ) 或者数量更多的服务器( 水平扩容 ,或 横向扩容 )来实现。虽然 Elasticsearch 可以获益于更强大的硬件设备,但是垂直扩容是有极限的。 真正的扩容能力是来自于...
2019-12-12 17:59:33 590
原创 大数据存储框架之HBase(2) 解压缩
本文地址:大数据存储框架之HBase(2) 解压缩HBase作为大数据存储框架中性能等各方面都比较优秀的框架,面对着大量数据的冲击,我们一般会使用对数据进行压缩来进行存储。就像在Hive中,我们会用到LZO压缩,在Hadoop中,我们会使用Snappy压缩。HBase中压缩算法的比较以下数据是Google在2005年发布的一个测试数据。Algorithm% remainin...
2019-12-12 14:14:05 605
转载 大数据计算引擎之 Flink原理与实现:内存管理
转载自:Flink原理与实现:内存管理本文地址:大数据计算引擎之 Flink原理与实现:内存管理如今,大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中,这就不得不面对 JVM 存在的几个问题:Java 对象存储密度低。一个只包含 boolean 属性的对象占用了16个字节内存...
2019-12-12 14:08:42 563
原创 大数据计算引擎之Flink的重启策略
原文地址:大数据计算引擎之Flink的重启策略Flink 支持不同的重启策略,可以在我们的Flink的Job发生故障的时候控制作业的重启机制。集群在启动时会伴随一个默认的重启策略,在没有定义的具体的重启策略时会使用该默认策略。重启策略分为全局配置和当前应用程序配置重启策略的配置全局配置restart-strategy: fixed-delay restart-strate...
2019-12-12 14:06:05 181
转载 大数据计算引擎之Flink配置高可用
原文地址:大数据计算引擎之Flink配置高可用高可用?什么是高可用?简单的理解就是高度可用性。我们在Hadoop中也曾配置了高可用,配置高可用的目的就是当我们的Hadoop出现故障的时候,我们的系统不至于当场崩溃。比如说我们配置的两个NameNode,当一个NameNode挂了之后,我们的另一个NameNode就会撑起大梁。在Flink中也是一样的。从本质上来说,就是配置两个JobManag...
2019-12-12 14:04:21 965
原创 大数据计算引擎之Flink流处理基础
原文地址:大数据计算引擎之Flink流处理基础数据流程序描述了数据如何在算子之间流动。数据流程序通常表示为有向图,其中节点称为算子,用来表示计算。算子是数据流程序的基本功能单元。流处理基础流编程简介数据流图(DataFlow Graph)如上图所示,数据流图被称为逻辑流图。为了执行一个数据流程序,Flink会将逻辑流图转换为物理数据流图。数据并行和任务并行我们可以以不同的方式...
2019-12-12 14:02:23 429
原创 大数据计算引擎之Flink简介
原文地址:大数据计算引擎之Flink简介Flink简介1.1 Flink的初步认识Apache Flink是为分布式、高性能、随时可用以即准确的流处理应用程序打造的开源处理框架Apache Flink是一个框架和分布式处理引擎,用于对无界和有界数据进行有状态计算,Flink被设计在所有常见的集群环境中运行,以内存执行速度和任意规模来执行计算。[外链图片转存失败(img-bWUWJdZ...
2019-12-12 13:59:29 505
原创 大数据计算引擎之Flink概述
大数据计算引擎之Flink概述Flink起源于Stratosphere项目,Stratosphere是在2010~2014年由3所地处柏林的大学和欧洲的一些其他的大学共同进行的研究项目,2014年4月Stratosphere的代码被复制并捐赠给了Apache软件基金会,参加这个孵化项目的初始成员是Stratosphere系统的核心开发人员,2014年12月,Flink一跃成为Apache软件...
2019-12-12 13:57:09 512
原创 大数据存储框架之HBase(1) 概述
原文地址:大数据存储框架之HBase(1) 概述认识HBase首先,HBase是Hadoop集群环境下的一个是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase的目标是存储并处理大型的数据,更具体来说是仅需使用普通的硬件配置,就能够处理由成千上万的行和列所组成的大型数据。HBase的特点说道HBase的特点,其实也很好说:海量存储列式存储极易扩展: Hbase的扩...
2019-12-12 13:51:07 714
原创 大数据存储框架之HBase(3) NameSpace/Schema
大数据存储框架之HBase(3) NameSpace/Schema 我们都是到HBase里面有工作区间一说,这个工作区间也就相当于我们关系数据库中的数据库,也相当于我们Phoenix中的Schema。这里主要讲Phoenix和HBase的namespace之间的爱恨情仇的故事。先配置HBase开启与Phoenix的schema之间的转换 <property>...
2019-12-11 10:40:00 393
原创 大数据存储框架之Hive概述
原文地址:http://www.blog.sun-iot.xyz/2019/12/10/bigdata/hive-interview/大数据存储框架之Hive概述之前有写到HBase,那是老夫在开发过程中实际使用的一个存储数据库,HBase和Hive同样作为大数据存储中最优秀的两个存储框架,都有着彼此的优势,HBase更适合实时,Hive更适合离线。这里呢,就先简单的介绍一下HIve的基础架...
2019-12-10 18:11:13 768
Balsamiq_Mockups_3.5.17.zip
2019-08-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人