自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

似梦似意境

既然选择远方,便只顾风雨兼程

转载 Flink 作为现代数据仓库的统一引擎:Hive 集成生产就绪!

在2020年,你的数据仓库和基础设施需要满足哪些需求? 我们总结了几下几点: 首先,当下的企业正快速转向更实时化的模式,这要求企业具备对线上流式数据进行低延迟处理的能力,以满足实时(real-time)或近实时(near-real-time)的数据分析需求。人们对从数据产生到数据可用之间延...

2020-05-07 22:29:28 92 0

原创 Flink CEP简介

Table API是流处理和批处理通用的关系型API,Table API可以基于流输入或者批输入来运行而不需要进行任何修改。Table API是SQL语言的超集并专门为Apache Flink设计的,Table API是Scala 和Java语言集成式的API。与常规SQL语言中将查询指定为字符串...

2020-05-06 23:51:31 39 0

原创 Flink的TableAPI与SQL

流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过90度时发出警告。有状态的计算则会基于多个事件输出结果。以下是一些例子。 所有类型的窗口。例如,计算过去一小时的平均温度,就是有状态的计算。 ...

2020-05-06 23:11:06 69 0

原创 状态编程和容错机制

1.Flink中的时间语义 在Flink的流式处理中,会涉及到时间的不同概念,如下图所示: Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。 Ingestion T...

2020-05-06 22:13:42 104 0

原创 ProcessFunction API(底层API)

Table API是流处理和批处理通用的关系型API,Table API可以基于流输入或者批输入来运行而不需要进行任何修改。Table API是SQL语言的超集并专门为Apache Flink设计的,Table API是Scala 和Java语言集成式的API。与常规SQL语言中将查询指定为字符串...

2020-05-06 21:21:58 94 0

原创 Redis 和 Memcached 有什么区别?Redis 的线程模型是什么?为什么 Redis 单线程却能支撑高并发?

1.redis 和 memcached 有啥区别? redis 支持复杂的数据结构 redis 相比 memcached 来说,拥有更多的数据结构,能支持更丰富的数据操作。如果需要缓存能够支持更复杂的结构和操作, redis 会是不错的选择。 redis 原生支持集群模式 在 redis3...

2020-05-06 12:50:09 32 0

原创 atlas 优秀博客

•atlas整体介绍:https://blog.csdn.net/oDaiLiDong/article/details/78052017 •atlas安装部署:https://blog.csdn.net/MuQianHuanHuoZhe/article/details/82048755 •...

2020-05-02 15:20:34 103 0

原创 元数据与数据治理|Atlas 总结

ApacheAtlas可监控数据的流向 ApacheRanger统一授权管理

2020-05-02 15:15:38 165 0

原创 元数据与数据治理|Apache Atlas 类型系统与Rest API

ApacheAtlas可监控数据的流向 ApacheRanger统一授权管理

2020-05-02 15:08:16 203 0

原创 元数据与数据治理|apache-atlas2.0.0 源码编译和安装部署(CHD版本)

1.文档地址: 官网地址:https://atlas.apache.org/ 文档地址:https://atlas.apache.org/2.0.0/index.html 下载地址:https://www.apache.org/dyn/closer.cgi/atlas/2.0.0/...

2020-05-02 15:06:47 195 0

原创 4 步搞定 Hive 增量更新

Hive 的更新很有趣。 Hive 的表有两种,一种是 managed table, 一种是 external table. managed table 是 Hive 自动帮我们维护的表,自动分割底层存储文件,自动分区,这些自动化的操作,都是 Hive 封装了与 Hadoop 交互的接口。 ...

2020-05-01 14:36:10 105 0

原创 Hive 特殊函数使用技巧

1.Hive中if函数和Mysql中ifnull的转换 在mysql中,ifnull函数的用法,其表达式如下:IFNULL(expr1,expr2),如果 expr1 不是 NULL,IFNULL() 返回 expr1,否则它返回 expr2。IFNULL()返回一个数字或字符串值,取决于它被...

2020-05-01 14:22:53 61 0

原创 Hive运行引擎Tez

Tez是一个Hive的运行引擎,性能优于MR。为什么优于MR呢?看下图。 用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到HDFS。 Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HD...

2020-05-01 14:20:41 77 0

转载 HBase抗战总结|阿里巴巴HBase高可用8年抗战回忆录

0.前言 2011年毕玄和竹庄两位大神将HBase引入阿里技术体系,2014年接力棒转到东8区第一位HBase commiter天梧手中,多年来与淘宝、旺旺、菜鸟、支付宝、高德、大文娱、阿里妈妈等几乎全BU合作伙伴携手共进,支撑了双十一大屏、支付宝账单、支付宝风控、物流详情等核心业务。2018...

2020-05-01 13:36:29 215 0

原创 Sqoop 导入导出经验浅谈

1.在增量导出模式下如何选择 update-key 在增量导出模式下,无论是allowinsert模式还是updateonly模式,都需要设置update-key: • allowinsert模式:该模式下生成的是insert语句,从这个角度讲update-key是没有作用的,但是在CDH...

2020-05-01 13:32:50 85 0

原创 Sqoop 一些常用命令及参数

1.常用命令列举 这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。 序号 命令 类 说明 1 import ...

2020-05-01 13:31:21 45 0

原创 脑裂是什么?Zookeeper是如何解决的?

什么是脑裂 脑裂(split-brain)就是“大脑分裂”,也就是本来一个“大脑”被拆分了两个或多个“大脑”,我们都知道,如果一个人有多个大脑,并且相互独立的话,那么会导致人体“手舞足蹈”,“不听使唤”。 脑裂通常会出现在集群环境中,比如ElasticSearch、Zookeeper集群,而这...

2020-04-30 11:41:14 38 0

原创 集群数据存储

1.HDFS相关 HDFS服务器存储文件的路径: cd /opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-389705695-10.211.55.102-1525228873329/current/finalized/subdir0/s...

2020-04-29 16:58:13 35 0

原创 Hadoop 集群性能测试

1.测试HDFS写性能 测试内容:向HDFS集群写10个128M的文件 [luomk@hadoop102 hadoop-2.7.2]$ hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-c...

2020-04-29 16:56:26 29 0

原创 初识ldap 及 kerberos 联合使用

参考网址:https://www.jianshu.com/p/b8125b749af3

2020-04-29 00:38:10 62 0

原创 Dubbo 详细介绍

Dubbo 从入门实战:https://segmentfault.com/a/1190000019896723 Dubbo 和 Spring Cloud 有什么区别:https://www.jianshu.com/p/3090d63e9cb3 dubbo和webservice 区别:htt...

2020-04-29 00:36:14 33 0

原创 RPC 详细介绍

RPC非常重要,很多人面试的时候都挂在了这个地方!你要是还不懂RPC是什么?他的基本原理是什么?你一定要把下边的内容记起来!好好研究一下!特别是文中给出的一张关于RPC的基本流程图,重点中的重点,Dubbo RPC的基本执行流程就是他,RPC框架的基本原理也是他,别说我没告诉你!看了下边的内容你要...

2020-04-28 22:05:39 49 0

原创 如何实现远程通信

参考网址:https://www.jianshu.com/p/b8125b749af3

2020-04-28 21:57:09 47 0

原创 数据中台演进的四个阶段

数据中台演进的四个阶段:https://www.jiqizhixin.com/articles/2019-04-23-4

2020-04-25 12:34:16 103 0

原创 【专栏推荐】说透中台

说到中间件或是平台,搞技术的人应该不陌生,但是如果说到“中台”,我想很多人可能就没有听说过了。我也是在一些技术社区(如CSDN)和技术公众号上了解到有这样一个概念,但并未对其进行深入的学习。 最近,我在极客时间App上学习了小专栏《说透中台》,算是对“中台”这个概念有了较为深入的了解。本专栏...

2019-11-25 10:21:14 142 0

原创 架构设计文档模板

1.备选方案模板 1.1 需求介绍 • [需求介绍主要描述需求的背景、目标、范围等] • 随着XX微博业务的不断发展,业务上拆分的子系统越来越多,目前系统间的调用都是同步调用,存在如下问题: • 性能问题:当用户发布了一条微博后,微博发布子系统需要同步调用“统计子系统”“审核子系统”...

2019-11-24 23:57:44 167 0

原创 App架构的演进

1.Web App App 架构又叫包壳架构,简单来说就是在 Web 的业务上包装一个 App 的壳,业务逻辑完全还是 Web 实现,App 壳完成安装的功能,让用户看起来像是在使用 App,实际上和用浏览器访问 PC 网站没有太大差别。 2.原生App 优点:用户体验好 缺点:...

2019-11-24 22:50:18 71 0

原创 架构重构

1.有的放矢 只有少部分架构演化可能需要推到重来,绝大部分的架构演化都是通过架构重构来实现的。 1.1 架构重构的难点 • 业务已经上线,不能停下来 • 关联方众多,牵一发动全身 • 旧架构的约束 1.2 架构重构案例 架构师的首要任务是从一大堆纷繁复杂的问题中识别出真正要...

2019-11-24 22:33:57 80 0

原创 互联网架构模板

互联网的标准技术架构如下图所示,这张图基本涵盖了互联网技术公司的大部分技术点,不同的公司只是在具体的技术实现上稍有差异,但不会跳出这个框架的范围。 1.存储层 1.1 SQL层 1.2 NOSQL层 1.3 小文件存储 开源的,HBase,Hadoop,Hypertable,Fas...

2019-11-24 22:24:10 115 0

原创 技术演进的方向

1.技术演进的方向? 1.1 判断方向的3大派别 • 潮流派 特点:热衷新技术,紧跟技术潮流,迫切想将新技术应用起来 问题:新技术未成熟,可能遇到坑;掌握新技术后才知不适合,成本很高 • 保守派 特点:戒备新技术,稳定压倒一切,一种技术打遍天下 问题:无法享受到新技术带来...

2019-11-24 22:07:18 43 0

原创 可拓展架构模式

1.可扩展架构的基本思想 拆。就是将原本大一统的系统拆分成多个规模小的部分,扩展时只修改其中一部分即可,无须整个系统到处都改。 1.1 3种拆分思路 日常生活中的『拆』是破坏性的,而软件系统的『拆』是建设性的。 • 面向流程拆分:将整个业务流程拆分为几个阶段,每个阶段作为一部分 ...

2019-11-24 21:37:07 107 0

原创 高可用架构模式

1.CAP 理论 CAP定理(CAP theorem)又被称作布鲁尔定理(Brewer's theorem),是回加州大学伯克得分校的计算机科学家埃里克·布鲁尔(Eric Brewer)在2000年的ACM PODC上提出的一个猜想。2002 年,麻省理工学院的赛斯·吉尔伯特(Set...

2019-11-24 20:39:48 69 0

原创 高性能架构模式

1.高性能数据库集群:读写分离 1.1 读写分离原理 读写分离的基本原理是将数据库读写操作分散到不同的节点上,下面是其基本架构图。 读写分离的基本实现是: • 数据库服务器搭建主从集群,一主一从、一主多从都可以。 • 数据库主机负责读写操作,从机只负责读操作。 • 数据库主...

2019-11-24 20:31:41 71 0

原创 架构设计流程

1.架构设计流程:识别复杂度 • 架构的复杂度主要来源于“高性能”“高可用”“可扩展”等几个方面,但架构师在具体判断复杂性的时候,不能生搬硬套,认为任何时候架构都必须同时满足这三方面的要求。实际上大部分场景下,复杂度只是其中的某一个,少数情况下包含其中两个,如果真的出现同时需要解决三个或者三个...

2019-11-24 20:31:06 103 0

原创 架构设计三原则

架构即决策。架构需要面向业务需求,并在各种资源(人、财、物、时、事)约束条件下去做权衡、取舍。而决策就会存在不确定性。采用一些高屋建瓴的设计原则有助于去消除不确定,去逼近解决问题的最优解。 • 合适原则(合适优于业界领先) 架构无优劣,但存合适性。“汝之蜜糖,吾之砒霜”;架构一定要匹配企业...

2019-11-15 00:37:23 57 0

原创 复杂度来源

1.复杂度来源:高性能 软件系统中高性能带来的复杂度主要体现在两方面,一方面是单台计算机内部为了高性能带来的复杂度;另一方面是多台计算机集群为了高性能带来的复杂度。 1.1 单机复杂度 计算机内部复杂度最关键的地方:操作系统 操作系统和性能最相关的是:进程和线程 分时调度,本质上...

2019-11-14 00:31:56 81 0

原创 架构设计的目的

1.架构设计的误区 • 因为架构很重要,所以要做架构设计 • 不是每个系统都要做架构设计吗 • 公司流程要求系统开发过程中必须有架构设计 • 为了高性能、高可用、可扩展,所以要做架构设计 2.架构设计的真正目的 通过分享的架构设计的历史背景,可以看到,整个软件技术发展的历...

2019-10-30 00:07:22 207 0

原创 架构设计的历史背景

理解了架构的有关概念和定义之后,今天,我会给你讲讲架构设计的历史背景。我认为,如果想要深入理解一个事物的本质,最好的方式就是去追寻这个事物出现的历史背景和推动因素。我们先来简单梳理一下软件开发进化的历史,探索一下软件架构出现的历史背景。 1.机器语言(1940 年之前) 最早的软件开发使用的...

2019-10-21 13:01:22 255 0

原创 什么是架构

架构”这个词常见,但如果深究一下“架构”到底指什么,大部分人也许并不一定能够准确地回答。 例如:架构和框架是什么关系?有什么区别? Linux 有架构,MySQL 有架构,JVM 也有架构,使用 Java 开发、MySQL 存储、跑在 Linux 上的业务系统也有架构,应该关注哪个架构呢? 微信有...

2019-10-19 16:19:59 415 0

原创 LDAP概念和原理介绍

相信对于许多的朋友来说,可能听说过LDAP,但是实际中对LDAP的了解和具体的原理可能还比较模糊,今天就从“什么是LDAP”、“LDAP的主要产品”、“LDAP的基本模型”、“LDAP的使用案例”四个方面来做一个介绍。 我们在开始介绍之前先来看几个问题: • 我们日常的办公系统是不是有多个...

2019-10-17 19:18:05 425 0

提示
确定要删除当前文章?
取消 删除