- 博客(8)
- 收藏
- 关注
原创 数据建模 --- 概念建模+逻辑建模+物理建模
概念建模 主要内容:客户交流,了解需求,形成实体,如销售业务中实体可能包括“订单”、“业务员”等实体。逻辑建模 主要内容:将概念模型具体化,即要实现概念模型所描述的东西,需要哪些具体的功能和具体的信息,如订单包含“订单ID”、“订单金额”、”订单地址“等。物理建模 主要内容:针对逻辑模型的结果,在具体的物理介质上实现,如采用何种数据库,然
2016-08-29 10:42:33 4023
原创 星型模型 vs 雪花模型 vs 星座模型
星型模型 核心是一个事实表及多个非正规化描述的维度表组成。雪花模型 它是星型模型的扩展,不同的是维度表被规范化,进一步分解到附加表中。星座模型 由多个事实表组合,维护是公共的,可以共享。它是数据仓库最常使用的模型。
2016-08-26 21:58:44 5187
原创 Spark 介绍
Spark 是什么? Spark是UC Berkeley开源的类Haddop Map-reduce的通用并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有map reduce的优点;同时Spark可Job的中间输出和结果可以保存在内存中,从而不再需要读写hdfs,因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的map reduce算法。
2016-08-26 15:28:29 1051
原创 Hash Join vs Nest Loop vs Sort Merge
Hash Join 将小表(内表)存于hash area内存中用作hash table,之后全扫描大表(外表)的每条记录并在连接的列上做哈希算法,查询是否能匹配hash table。如果内存放不下小表则需要把小表按照一定的哈希算法进行分割,同时大表也根据相应的算法进行分割,然后大表相应的块与小表相应的块生成的hash table进行join,最后把所有join的结果合并起来。Ne
2016-08-26 09:31:25 819
原创 Linux Source 命令
Source 命令 定义:在当前bash环境下读取并执行FileName中的命令。该命令通常也用.代替,例如source .bash_profile与. .bash_profile是相同的。 Source filename 与 sh filename 及 ./filename的区别 1、当shell脚本具有可执行权限时,sh filename与./f
2016-08-25 23:01:17 753
原创 Hive vs HBase
Hive Hive 是一款构建于Hadoop之上的数据仓库。可以使用HQL语言查询HDFS上面的数据。HQL是一种类SQL语言,最终转换为Map-Reduce任务。Hive本身不存储数据,数据都存储于HDFS上,因此Hive上面的表都是逻辑表,只是表的元数据。 Hive 运行时间比较长因为默认情况下Hive会遍历整张表,不过这种情况可以使用分区表得以解决。 Hiv
2016-08-24 09:03:10 1138
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人