2018年11月_young-ming

12月 11月 10月 09月 08月 07月 06月 05月 02月 01月

原创数据仓库主题域

主题域通常是联系较为紧密的数据主题的集合。比如销售分析，进销存分析都是主题，可以根据业务的关注点，将这些数据主题划分到不同的主题域。主题域包含了某方面决策者关注的事物。一个主题域通常会覆盖多个业务部门，例如产品主题域涉及到销售、财务、物流、采购等部门。DW的设计方法一般采用面向主题的方法来设计。根据业务的特点，划分为若干个主题域，1、比如一个靠销售广告位置的门户网站主题域有：广告域，客户域...

2018-11-28 14:54:17 9854

转载数据仓库中的几种数据模型

数据仓库中常见的模型有：范式建模，雪花模型，星型建模，事实星座模型.星型模型星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星型模型的特点是数据组织直观，执行效率高。因为在数据集市的建设过程中，数据经过了预处理，比如按照维度进行了汇总，排序等等，数据量减少，执行的效率就比较高。雪花模型雪花模型也是维...

2018-11-28 09:47:45 1671

转载业务建模和概念模型设计

前言上一篇在数据仓库在技术架构设计和产品选择方面进行了一些总结。从这一篇将开始数据路径上的学习和思考吧。数据仓库作为一种产品，在不同的公司或者部门设计出来是不一样的。但是设计的思想是相通的。按照层次关系划分，数据路径上包括业务建模，概念模型设计，逻辑模型设计和物理模型设计。业务建模是针对公司或者部门级的业务进行全方面的梳理和分解。概念建模是对业务模型进行抽象出来实体以及实体与实体之...

2018-11-28 09:36:56 3395

上篇讲述了一些抽象的概念模型和逻辑模型设计的东西，接下来就该讲述如何来一步一步的利用Inmon和Kimball数据仓库的理论来建设数据仓库的模型，主要分几块吧，一个是范式建模，然后是维度建模（分几篇总结），最后是因地制宜，按照自己的平台来考虑如何综合的考虑Inmon和Kimball数据仓库的理论的应用。Inmon最初的建模理论是通过构建一个符合三范式的集中式的数据中心DW层，此层次的表一般不对...

2018-11-28 09:35:21 4126

转载数据仓库3NF基础理论和实例

一、引言　　最近在梳理大数据模式下的数据仓库数据模型，花了点时间，系统的回顾一下传统数据仓库数据模型设计的理论，作为笔记分享给大家，很多资料来自互联网和读过的数据仓库理论和实践相关的熟悉，无剽窃之心，共勉吧。二、3NF（1）1NF-无重复的列　　数据库表的每一列都是不可分割的基本数据项，同一列中不能有多个值，即实体中的某个属性不能有多个值或者不能有重复的属性。　　如果出现重复的...

2018-11-28 09:33:55 1284

转载 flink的内存管理

在大数据面前，JVM的内存结构和GC机制往往会成为掣肘1. 对象开销：在HotSpot中，每个对象占用的内存空间必须是8的倍数。这就导致每个对象占据的内存空间包含三部分：头信息（header）、类的field所占空间、对齐需要的空间（padding，由于前两个大小不够8导致），所以只有一个bool值的对象会占据16个字节，其中头占8字节，bool本身占用一个字节、padding占7个字节2...

2018-11-23 10:52:08 3786

转载 Kafka文件存储机制那些事

Kafka是什么Kafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统(也可以当做MQ系统)，常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。1.前言一个商业化消息队列的性能好坏，其文件存储机制设计是衡量一个消息队列服务技术...

2018-11-22 10:58:21 140

转载大量数据去重：Bitmap和布隆过滤器(Bloom Filter)

5TB的硬盘上放满了数据，请写一个算法将这些数据进行排重。如果这些数据是一些32bit大小的数据该如何解决？如果是64bit的呢？在面试时遇到的问题，问题的解决方案十分典型，但对于海量数据处理接触少的同学可能一时也想不到什么好方案。介绍两个算法，对于空间的利用到达了一种极致，那就是Bitmap和布隆过滤器(Bloom Filter)。Bitmap算法在网上并没有找到Bitmap算法的中文...

2018-11-20 15:42:25 567

oozie使用整理

此文档主要对oozie的使用方法，基本内容做了一次介绍。

2018-09-21

spark优化实践小记

此文档主要对日常使用spark过程中可能遇到的一些性能优化问题做了一次整理总结

2018-09-21

Percolator分布式事务

Percolator分布式事务介绍，基于BigTable的分布式事务实现

2018-09-21

处理后的ip库

ipku文件为对纯真ip库进行国家，省，市，区县拆分，学校网吧不规范数据处理后的可用文件 ipdata为原始纯真ip库 xuexiao.csv为手工整理的学校网吧对应的地区

2015-11-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

数据技术控

原创数据仓库主题域

转载数据仓库中的几种数据模型

转载业务建模和概念模型设计

转载范式建模

转载数据仓库3NF基础理论和实例

转载 flink的内存管理

转载 Kafka文件存储机制那些事

转载大量数据去重：Bitmap和布隆过滤器(Bloom Filter)

oozie使用整理

spark优化实践小记

Percolator分布式事务

处理后的ip库

空空如也