数据技术控

学习笔记备忘录。。。

链表常见算法

链表转置 public Node reverseList(Node head){ //头节点的上一个节点为 null Node pre = null; Node next = null; while(head != null){ next = h...

2019-04-22 11:35:49

阅读数 28

评论数 0

判断两个二叉树是否完全相等

递归实现 static public bool IsSameTree(TreeNode root1, TreeNode root2) { if (root1 == null && root2 == null) { return true; } if (...

2019-04-17 10:51:17

阅读数 26

评论数 0

hive transform列转行

hive -e " add file split_sjku_domain.py; select transform(company_name,regexp_replace(corporate_website,'www.','') ) using 'split_sjku_d...

2019-03-01 16:04:04

阅读数 65

评论数 0

Flink Checkpoint

在学习flink的时候看了本书《Stream Processing with Apache Flink》。里面对Flink checkpoint的原理讲得挺清楚的,后面内部分享时也参考了这个说法,所以这里按照我的理解描述一下。 首先,flink的checkpoint并不是将Subtask或者UD...

2019-02-19 17:20:04

阅读数 144

评论数 0

Quartz集群原理及配置应用

1、Quartz任务调度的基本实现原理   Quartz是OpenSymphony开源组织在任务调度领域的一个开源项目,完全基于Java实现。作为一个优秀的开源调度框架,Quartz具有以下特点:     (1)强大的调度功能,例如支持丰富多样的调度方法,可以满足各种常规及特殊需求;    ...

2019-02-01 10:01:11

阅读数 52

评论数 0

探索HyperLogLog算法

引言 HyperLogLog算法经常在数据库中被用来统计某一字段的Distinct Value(下文简称DV),比如Redis的HyperLogLog结构,出于好奇探索了一下这个算法的原理,无奈中文资料很少,只能直接去阅读论文以及一些英文资料,总结成此文。 介绍 HyperLogLog算法来...

2019-01-25 11:55:06

阅读数 89

评论数 0

elasticsearch 倒排索引原理

Elasticsearch是通过Lucene的倒排索引技术实现比关系型数据库更快的过滤。特别是它对多条件的过滤支持非常好,比如年龄在18和30之间,性别为女性这样的组合查询。倒排索引很多地方都有介绍,但是其比关系型数据库的b-tree索引快在哪里?到底为什么快呢? 笼统的来说,b-tree索引是...

2019-01-24 19:23:50

阅读数 306

评论数 0

SkipList跳表基本原理

为什么选择跳表 目前经常使用的平衡数据结构有:B树,红黑树,AVL树,Splay Tree, Treep等。 想象一下,给你一张草稿纸,一只笔,一个编辑器,你能立即实现一颗红黑树,或者AVL树 出来吗? 很难吧,这需要时间,要考虑很多细节,要参考一堆算法与数据结构之类的树, 还要参考网上的...

2019-01-24 18:41:40

阅读数 31

评论数 0

数据仓库事实表

事实表分成三种:事务事实表、周期快照事实表、累计快照事实表 事务事实表 官方定义是:发生在某个时间点上的一个事件。比如以订单为例:下单是一个事实、付款是一个事实、退款是一个事实,所有事实的累计就是事务事实表 周期快照事实表 如果需要对某一天或者某个月的数据进行分析,那么可以使用周期快照事实...

2019-01-10 19:07:18

阅读数 131

评论数 0

Flink 原理与实现:内存管理

如今,大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中,这就不得不面对 JVM 存在的几个问题: Java 对象存储密度低。一个只包含 boolean 属性的对象占用了16个字节内存:...

2018-12-15 21:11:33

阅读数 106

评论数 0

flink浅读

apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时(Flink Runtime),提供支持流处理和批处理两种类型应用的功能。现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型,因为他们它们所提供的SLA是完全不相同的:流处理一...

2018-12-15 21:02:47

阅读数 75

评论数 0

Spark为何使用Netty通信框架替代Akka

  转:http://www.aboutyun.com/thread-21115-1-1.html 1. spark 如何在1.6.0之后使用Netty替代了Akka?2. Spark Network Common怎么实现?3. BlockTransfer...

2018-12-15 20:36:40

阅读数 184

评论数 0

YARN中FIFO、Capacity以及Fari调度器的详细介绍

(1)FIFO Scheduler 将所有的Applications放到队列中,先按照作业的优先级高低、再按照到达时间的先后,为每个app分配资源。如果第一个app需要的资源被满足了,如果还剩下了资源并且满足第二个app需要的资源,那么就为第二个app分配资源,and so on。 优点:简单...

2018-12-15 20:22:44

阅读数 136

评论数 0

数据仓库主题域

主题域通常是联系较为紧密的数据主题的集合。比如销售分析,进销存分析都是主题,可以根据业务的关注点,将这些数据主题划分到不同的主题域。主题域包含了某方面决策者关注的事物。一个主题域通常会覆盖多个业务部门,例如产品主题域涉及到销售、财务、物流、采购等部门。 DW的设计方法一般采用面向主题的方法来设计...

2018-11-28 14:54:17

阅读数 1251

评论数 0

数据仓库中的几种数据模型

数据仓库中常见的模型有:范式建模,雪花模型,星型建模,事实星座模型. 星型模型 星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样。星型模型的特点是数据组织直观,执行效率高。因为在数据集市的建设过程中,数据经过了预处理,比如按照...

2018-11-28 09:47:45

阅读数 172

评论数 0

业务建模和概念模型设计

前言 上一篇在数据仓库在技术架构设计和产品选择方面进行了一些总结。从这一篇将开始数据路径上的学习和思考吧。数据仓库作为一种产品,在不同的公司或者部门设计出来是不一样的。但是设计的思想是相通的。按照层次关系划分,数据路径上包括业务建模,概念模型设计,逻辑模型设计和物理模型设计。 业务建模是针...

2018-11-28 09:36:56

阅读数 247

评论数 0

范式建模

上篇讲述了一些抽象的概念模型和逻辑模型设计的东西,接下来就该讲述如何来一步一步的利用Inmon和Kimball数据仓库的理论来建设数据仓库的模型,主要分几块吧,一个是范式建模,然后是维度建模(分几篇总结),最后是因地制宜,按照自己的平台来考虑如何综合的考虑Inmon和Kimball数据仓库的理论的...

2018-11-28 09:35:21

阅读数 186

评论数 0

数据仓库3NF基础理论和实例

一、引言   最近在梳理大数据模式下的数据仓库数据模型,花了点时间,系统的回顾一下传统数据仓库数据模型设计的理论,作为笔记分享给大家,很多资料来自互联网和读过的数据仓库理论和实践相关的熟悉,无剽窃之心,共勉吧。 二、3NF (1)1NF-无重复的列   数据库表的每一列都是不可分割的基本数...

2018-11-28 09:33:55

阅读数 64

评论数 0

flink的内存管理

在大数据面前,JVM的内存结构和GC机制往往会成为掣肘 1. 对象开销:在HotSpot中,每个对象占用的内存空间必须是8的倍数。这就导致每个对象占据的内存空间包含三部分:头信息(header)、类的field所占空间、对齐需要的空间(padding,由于前两个大小不够8导致),所以只有一个bo...

2018-11-23 10:52:08

阅读数 503

评论数 0

Kafka文件存储机制那些事

Kafka是什么 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级...

2018-11-22 10:58:21

阅读数 41

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭