自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

程序员学习圈

行胜于言、质胜于华

  • 博客(665)
  • 收藏
  • 关注

原创 数据仓库之事实表,维度表

前面的一篇文章——数据仓库的多维数据模型中已经简单介绍过多维模型的定义和结构,以及事实表(Fact Table)和维表(Dimension Table)的概念。多维数据模型作为一种新的逻辑模型赋予了数据新的组织和存储形式,而真正体现其在分析上的优势还需要基于模型的有效的操作和处理,也就是OLAP(On-line Analytical Processing,联机分析处理)。1.数据...

2020-07-25 22:51:39 722

原创 数据仓库之主数据

可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些。但不得不承认多维数据模型是数据仓库的一大特点,也是数据仓库应用和实现的一个重要的方面,通过在数据的组织和存储上的优化,使其更适用于分析型的数据查询和获取。多维数据模型的定义和作用  多维数据模型是为了满足用户从多角度多层次进行数据查询和分...

2020-07-25 21:38:51 909

原创 基础指标(原子指标)、复合指标、派生(衍生)指标的含义

数据仓库中集成了企业几乎所有的可以获取到的数据以用于数据分析和决策支持,当然也包括了我在网站分析的数据来源一文中所提到的所有数据。这些进入到数据仓库中的数据无外乎三种类型:结构化数据、半结构化数据和非结构化数据,它们经过转化后以某种形式统一地储存在数据仓库中,即通常说的ETL(Extract, Transform, Load,抽取、转换、装载)的过程。下面主要说一下这三种数据类型的区别,它...

2020-07-25 21:38:12 22721

原创 KANO 模型

KANO 模型的应用 KANO 模型,是东京理工大学教授狩野纪昭(Noriaki Kano)发明的一种对用户需求进行分类和优先排序的实用工具,以分析用户需求对用户满意的影响为基础,体现了产品性能和用户满意之间的关系。1. 基础功能当这类功能没有实现时,用户对产品是“极其不满”的。但是,即使这个功能做得再好,用户也认为是“理所应当”。要留足资源来做。基础功能是必需要实现的功能点,但它无法带来满意,只能消除不满。怎么判断一个功能是不是基础功能呢?如果你的领域知识不够,无法...

2020-07-12 10:10:11 2519

原创 MVP框架和 DS 方法论

如今VUCA时代信息无时无刻不在变化,用户的需求无时无刻不在变化。传统的瀑布开发工作模式已经赶不上如今这个快速变化的时代。于是,各行各业推出了很多的解决方案。VUCA 的中文含义分别对应着易变性、不确定性、复杂性和模糊性。V:Volatility 易变性U:Uncertainty 不确定性C:Complexity 复杂性A:Ambiguity 模糊性比如在生产领域,丰田公司提出了精益的概念,后来由此发展出如精益创业、精益设计等方法;在软件开发领域,有前辈提出了敏捷,Agile 的概念;在设计领域,

2020-07-12 00:20:59 837

原创 为什么每个人都要学产品创新课

项目经理与产品经理项目经理和产品经理最根本的差异其实就是目标的差异。 项目经理(Project Manager)通常强调完成任务,追求的目标可以用“多快好省”这个词来概括:多,是希望项目范围尽量大;快,是希望项目周期尽量短;好,是希望项目质量尽量高;省,是希望资源消耗尽量少。这些目标,其实都是偏完成度相关的,很少涉及商业方面的考虑。 产品经理(Product Manager)对一个产品整体负责,他要考虑的更多是商业层面的内容,比如用户数、活跃度、收入、利润、市场占有率。很明显,这是最终的

2020-07-12 00:15:04 221

转载 阿里数据中台建模

阿里中台的概念,可以说是近些年来的颇为火爆的概念。从十余年前的阿里在内部完成这一过程,并提出了“中台”概念;到后面中台概念逐步被外部接受并在2019年爆火兴起。数据中台爆火背后,既有传统企业转型焦虑的市场东风,又有阿里中台战略示范效应的推波助澜。下图为阿里中台架构(图片来自网络),其内置“大中台、小前台”的战略,其中包含了业务中台和数据中台的双中台配置。 从本质上来说,中台概念更多是一种方法论。它来告诉用户如何构建数据化服务体系,包括从数据集成、数据建模、数据开发、数据共享到数据质量、...

2020-06-08 10:18:58 2556

转载 Flink 作业问题分析和调优实践

摘要:本文主要分享 Flink 的 CheckPoint 机制、反压机制及 Flink 的内存模型。对这3部分内容的熟悉是调优的前提,文章主要从以下几个部分分享: 1. 原理剖析 2. 性能定位 3. 经典场景调优 4. 内存调优 Checkpoint 机制1....

2020-06-06 22:25:48 740

原创 数据倾斜

一、前言二、什么是数据倾斜?三、数据倾斜长什么样?四、数据倾斜的原理五、解决数据倾斜的思路六、MR解决数据倾斜的方法七、Hive解决数据倾斜的方法八、Spark解决数据倾斜的方法一、前言1.1 绪论 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。1.2 郑重声...

2020-06-04 23:53:48 778

原创 Sentry 简单介绍

参考1:https://blog.csdn.net/Androidlushangderen/article/details/85649735; 参考2:https://blog.csdn.net/zhouyuanlinli/article/details/78602485

2020-06-01 18:31:36 3832

原创 《大数据大创新:阿里巴巴云上数据中台之道》-读书笔记

0. 前言1.大数据的发展历程和价值探索1.1大数据发展的关键事件1.2 大数据的内涵和外延2.阿里的大数据主张2.1 云上数据中台赋能业务运行图2.2阿里数据中台赋能业务全景图3.阿里云上数据中台之建设过程3.1 烟囱式开发带来的困扰和资源浪费3.1.1 业务困扰3.1.2 技术困扰3.2数据公共层力求让业务和技术都满意3.3 阿里云上数据中台三大体系3.4 阿里数据中台及赋能业务模式支撑3.5 数据中台技术的数字表现3.6 数据中台六大数据技术领域3.7 数据中台建设方法

2020-06-01 18:29:37 1268

转载 Flink 作为现代数据仓库的统一引擎:Hive 集成生产就绪!

在2020年,你的数据仓库和基础设施需要满足哪些需求?我们总结了几下几点:首先,当下的企业正快速转向更实时化的模式,这要求企业具备对线上流式数据进行低延迟处理的能力,以满足实时(real-time)或近实时(near-real-time)的数据分析需求。人们对从数据产生到数据可用之间延迟的容忍度越来越低。曾经几个小时甚至几天的延误不再被接受。用户期待的是几分钟甚至几秒钟的数据端到端体...

2020-05-07 22:29:28 289

原创 Flink CEP简介

Table API是流处理和批处理通用的关系型API,Table API可以基于流输入或者批输入来运行而不需要进行任何修改。Table API是SQL语言的超集并专门为Apache Flink设计的,Table API是Scala 和Java语言集成式的API。与常规SQL语言中将查询指定为字符串不同,Table API查询是以Java或Scala中的语言嵌入样式来定义的,具有IDE支持如...

2020-05-06 23:51:31 319

原创 Flink的TableAPI与SQL

流式计算分为无状态和有状态两种情况。无状态的计算观察每个独立事件,并根据最后一个事件输出结果。例如,流处理应用程序从传感器接收温度读数,并在温度超过90度时发出警告。有状态的计算则会基于多个事件输出结果。以下是一些例子。 所有类型的窗口。例如,计算过去一小时的平均温度,就是有状态的计算。 所有用于复杂事件处理的状态机。例如,若在一分钟内收到两个相差20度以上的温度读数,则发...

2020-05-06 23:11:06 300

原创 状态编程和容错机制

1.Flink中的时间语义 在Flink的流式处理中,会涉及到时间的不同概念,如下图所示: Event Time:是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间,Flink通过时间戳分配器访问事件时间戳。 Ingestion Time:是数据进入Flink的时间。 Processing Time:是每...

2020-05-06 22:13:42 548

原创 ProcessFunction API(底层API)

Table API是流处理和批处理通用的关系型API,Table API可以基于流输入或者批输入来运行而不需要进行任何修改。Table API是SQL语言的超集并专门为Apache Flink设计的,Table API是Scala 和Java语言集成式的API。与常规SQL语言中将查询指定为字符串不同,Table API查询是以Java或Scala中的语言嵌入样式来定义的,具有IDE支持如...

2020-05-06 21:21:58 509

原创 Redis 和 Memcached 有什么区别?Redis 的线程模型是什么?为什么 Redis 单线程却能支撑高并发?

1.redis 和 memcached 有啥区别?redis 支持复杂的数据结构redis 相比 memcached 来说,拥有更多的数据结构,能支持更丰富的数据操作。如果需要缓存能够支持更复杂的结构和操作, redis 会是不错的选择。redis 原生支持集群模式在 redis3.x 版本中,便能支持 cluster 模式,而 memcached 没有原生的集群模式,需要依靠客户...

2020-05-06 12:50:09 182

原创 atlas 优秀博客

•atlas整体介绍:https://blog.csdn.net/oDaiLiDong/article/details/78052017 •atlas安装部署:https://blog.csdn.net/MuQianHuanHuoZhe/article/details/82048755 •JanusGraph学习手册:https://blog.csdn.net/x...

2020-05-02 15:20:34 276

原创 元数据与数据治理|Atlas 总结

ApacheAtlas可监控数据的流向ApacheRanger统一授权管理

2020-05-02 15:15:38 873

原创 元数据与数据治理|Apache Atlas 类型系统与Rest API

ApacheAtlas可监控数据的流向ApacheRanger统一授权管理

2020-05-02 15:08:16 1626 1

原创 元数据与数据治理|apache-atlas2.0.0 源码编译和安装部署(CHD版本)

1.文档地址: 官网地址:https://atlas.apache.org/ 文档地址:https://atlas.apache.org/2.0.0/index.html 下载地址:https://www.apache.org/dyn/closer.cgi/atlas/2.0.0/apache-atlas-2.0.0-sources.tar.gz2.A...

2020-05-02 15:06:47 1987 2

原创 4 步搞定 Hive 增量更新

Hive 的更新很有趣。Hive 的表有两种,一种是 managed table, 一种是 external table.managed table 是 Hive 自动帮我们维护的表,自动分割底层存储文件,自动分区,这些自动化的操作,都是 Hive 封装了与 Hadoop 交互的接口。external table 只是一种在 Hive 维护的与外部文件的映射。managed tab...

2020-05-01 14:36:10 2754 1

原创 Hive 特殊函数使用技巧

1.Hive中if函数和Mysql中ifnull的转换 在mysql中,ifnull函数的用法,其表达式如下:IFNULL(expr1,expr2),如果 expr1 不是 NULL,IFNULL() 返回 expr1,否则它返回 expr2。IFNULL()返回一个数字或字符串值,取决于它被使用的上下文环境。 举个应用场景,比如某一个字段定义为int类型,其默认值为0,但是在sq...

2020-05-01 14:22:53 664

原创 Hive运行引擎Tez

Tez是一个Hive的运行引擎,性能优于MR。为什么优于MR呢?看下图。 用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是Reduce Task,云状表示写屏蔽,需要将中间结果持久化写到HDFS。 Tez可以将多个有依赖的作业转换为一个作业,这样只需写一次HDFS,且中间节点较少,从而大大提升作业的计算性能。1.安装包准备1.1 下...

2020-05-01 14:20:41 1300

转载 HBase抗战总结|阿里巴巴HBase高可用8年抗战回忆录

0.前言 2011年毕玄和竹庄两位大神将HBase引入阿里技术体系,2014年接力棒转到东8区第一位HBase commiter天梧手中,多年来与淘宝、旺旺、菜鸟、支付宝、高德、大文娱、阿里妈妈等几乎全BU合作伙伴携手共进,支撑了双十一大屏、支付宝账单、支付宝风控、物流详情等核心业务。2018年双十一,HBase全天处理请求2.4万亿行,单集群吞吐达到千万级别。从一个婴儿成长为青年,阿里...

2020-05-01 13:36:29 537

原创 Sqoop 导入导出经验浅谈

1.在增量导出模式下如何选择 update-key 在增量导出模式下,无论是allowinsert模式还是updateonly模式,都需要设置update-key: • allowinsert模式:该模式下生成的是insert语句,从这个角度讲update-key是没有作用的,但是在CDH Sandbox上测试时发现,如果不指定update-key则会导致reduce执行失败。...

2020-05-01 13:32:50 664 1

原创 Sqoop 一些常用命令及参数

1.常用命令列举这里给大家列出来了一部分Sqoop操作时的常用参数,以供参考,需要深入学习的可以参看对应类的源代码。 序号 命令 类 说明 1 import ImportTool 将数据导入到集群 2 ...

2020-05-01 13:31:21 302

原创 脑裂是什么?Zookeeper是如何解决的?

什么是脑裂脑裂(split-brain)就是“大脑分裂”,也就是本来一个“大脑”被拆分了两个或多个“大脑”,我们都知道,如果一个人有多个大脑,并且相互独立的话,那么会导致人体“手舞足蹈”,“不听使唤”。脑裂通常会出现在集群环境中,比如ElasticSearch、Zookeeper集群,而这些集群环境有一个统一的特点,就是它们有一个大脑,比如ElasticSearch集群中有Master节点...

2020-04-30 11:41:14 565 3

原创 集群数据存储

1.HDFS相关 HDFS服务器存储文件的路径: cd /opt/module/hadoop-2.7.2/data/tmp/dfs/data/current/BP-389705695-10.211.55.102-1525228873329/current/finalized/subdir0/subdir0/ namenode被格式化之后所在路径:cd /opt/module/h...

2020-04-29 16:58:13 678

原创 Hadoop 集群性能测试

1.测试HDFS写性能 测试内容:向HDFS集群写10个128M的文件[luomk@hadoop102 hadoop-2.7.2]$ hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.2-tests.jar TestDFSIO -write...

2020-04-29 16:56:26 648

原创 数据中台【阿里数据中台建模】

阿里中台的概念,可以说是近些年来的颇为火爆的概念。从十余年前的阿里在内部完成这一过程,并提出了“中台”概念;到后面中台概念逐步被外部接受并在2019年爆火兴起。数据中台爆火背后,既有传统企业转型焦虑的市场东风,又有阿里中台战略示范效应的推波助澜。下图为阿里中台架构(图片来自网络),其内置“大中台、小前台”的战略,其中包含了业务中台和数据中台的双中台配置。

2020-04-29 00:38:10 736

原创 Dubbo 详细介绍

Dubbo 从入门实战:https://segmentfault.com/a/1190000019896723 Dubbo 和 Spring Cloud 有什么区别:https://www.jianshu.com/p/3090d63e9cb3 dubbo和webservice 区别:https://blog.csdn.net/AlbenXie/article/detai...

2020-04-29 00:36:14 212

原创 RPC 详细介绍

RPC非常重要,很多人面试的时候都挂在了这个地方!你要是还不懂RPC是什么?他的基本原理是什么?你一定要把下边的内容记起来!好好研究一下!特别是文中给出的一张关于RPC的基本流程图,重点中的重点,Dubbo RPC的基本执行流程就是他,RPC框架的基本原理也是他,别说我没告诉你!看了下边的内容你要掌握的内容如下,当然还有很多:1、RPC的由来,是怎样一步步演进出来的;2、RPC的基本架构是...

2020-04-28 22:05:39 1168

原创 如何实现远程通信

参考网址:https://www.jianshu.com/p/b8125b749af3

2020-04-28 21:57:09 1345

转载 阿里数据中台演进四个阶段

数据中台演进的四个阶段:https://www.jiqizhixin.com/articles/2019-04-23-4

2020-04-25 12:34:16 598

原创 架构设计文档模板

1.备选方案模板1.1 需求介绍 • [需求介绍主要描述需求的背景、目标、范围等] • 随着XX微博业务的不断发展,业务上拆分的子系统越来越多,目前系统间的调用都是同步调用,存在如下问题: • 性能问题:当用户发布了一条微博后,微博发布子系统需要同步调用“统计子系统”“审核子系统”“奖励子系统”等共8个子系统,性能很低。 • 耦合问题:当新增一个子系统...

2019-11-24 23:57:44 524

原创 App架构的演进

1.Web App App 架构又叫包壳架构,简单来说就是在 Web 的业务上包装一个 App 的壳,业务逻辑完全还是 Web 实现,App 壳完成安装的功能,让用户看起来像是在使用 App,实际上和用浏览器访问 PC 网站没有太大差别。2.原生App 优点:用户体验好 缺点:开发成本高;不同平台重复开发3.Hybrid App 优点:根据不同的业务...

2019-11-24 22:50:18 397

原创 架构重构

1.有的放矢 只有少部分架构演化可能需要推到重来,绝大部分的架构演化都是通过架构重构来实现的。1.1 架构重构的难点 • 业务已经上线,不能停下来 • 关联方众多,牵一发动全身 • 旧架构的约束1.2 架构重构案例 架构师的首要任务是从一大堆纷繁复杂的问题中识别出真正要通过架构重构来解决的问题,集中力量快速解决,而不是想着通过架构重构来解决...

2019-11-24 22:33:57 1090

原创 互联网架构模板

互联网的标准技术架构如下图所示,这张图基本涵盖了互联网技术公司的大部分技术点,不同的公司只是在具体的技术实现上稍有差异,但不会跳出这个框架的范围。1.存储层1.1 SQL层1.2 NOSQL层1.3 小文件存储 开源的,HBase,Hadoop,Hypertable,FastDFS等都可以作为小文件存储的底层平台。如果使用了阿里云,有存储系统OSS。1.4 大文件...

2019-11-24 22:24:10 1248

原创 技术演进的方向

1.技术演进的方向?1.1 判断方向的3大派别 • 潮流派 特点:热衷新技术,紧跟技术潮流,迫切想将新技术应用起来 问题:新技术未成熟,可能遇到坑;掌握新技术后才知不适合,成本很高 • 保守派 特点:戒备新技术,稳定压倒一切,一种技术打遍天下 问题:无法享受到新技术带来的收益 • 跟风派 特点:跟紧竞争对手,对方用...

2019-11-24 22:07:18 734

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除