2016年08月_数据源的港湾

原创数据建模 --- 概念建模+逻辑建模+物理建模

概念建模主要内容：客户交流，了解需求，形成实体，如销售业务中实体可能包括“订单”、“业务员”等实体。逻辑建模主要内容：将概念模型具体化，即要实现概念模型所描述的东西，需要哪些具体的功能和具体的信息，如订单包含“订单ID”、“订单金额”、”订单地址“等。物理建模主要内容：针对逻辑模型的结果，在具体的物理介质上实现，如采用何种数据库，然

2016-08-29 10:42:33 4023

原创星型模型 vs 雪花模型 vs 星座模型

星型模型核心是一个事实表及多个非正规化描述的维度表组成。雪花模型它是星型模型的扩展，不同的是维度表被规范化，进一步分解到附加表中。星座模型由多个事实表组合，维护是公共的，可以共享。它是数据仓库最常使用的模型。

2016-08-26 21:58:44 5187

原创 Spark 介绍

Spark 是什么？ Spark是UC Berkeley开源的类Haddop Map-reduce的通用并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有map reduce的优点；同时Spark可Job的中间输出和结果可以保存在内存中，从而不再需要读写hdfs，因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的map reduce算法。

2016-08-26 15:28:29 1051

原创 Hash Join vs Nest Loop vs Sort Merge

Hash Join 将小表（内表）存于hash area内存中用作hash table，之后全扫描大表（外表）的每条记录并在连接的列上做哈希算法，查询是否能匹配hash table。如果内存放不下小表则需要把小表按照一定的哈希算法进行分割，同时大表也根据相应的算法进行分割，然后大表相应的块与小表相应的块生成的hash table进行join，最后把所有join的结果合并起来。Ne

2016-08-26 09:31:25 819

原创 Linux Source 命令

Source 命令定义：在当前bash环境下读取并执行FileName中的命令。该命令通常也用.代替，例如source .bash_profile与. .bash_profile是相同的。 Source filename 与 sh filename 及 ./filename的区别 1、当shell脚本具有可执行权限时，sh filename与./f

2016-08-25 23:01:17 753

原创数据库设计三范式

1NF 字段不可分；2NF 有主键，非主键字段依赖主键；3NF 非主键字段不能相互依赖；

2016-08-25 12:27:18 615

原创 Hive vs HBase

Hive Hive 是一款构建于Hadoop之上的数据仓库。可以使用HQL语言查询HDFS上面的数据。HQL是一种类SQL语言，最终转换为Map-Reduce任务。Hive本身不存储数据，数据都存储于HDFS上，因此Hive上面的表都是逻辑表，只是表的元数据。 Hive 运行时间比较长因为默认情况下Hive会遍历整张表，不过这种情况可以使用分区表得以解决。 Hiv

2016-08-24 09:03:10 1138

原创 Lambda架构 vs Kappa架构

Architecture

2016-08-18 15:18:29 23673 2

数据源的港湾