自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据源的港湾

要么健身,要么读书,身体和灵魂,必须有一个在路上

  • 博客(8)
  • 收藏
  • 关注

原创 数据建模 --- 概念建模+逻辑建模+物理建模

概念建模     主要内容:客户交流,了解需求,形成实体,如销售业务中实体可能包括“订单”、“业务员”等实体。逻辑建模     主要内容:将概念模型具体化,即要实现概念模型所描述的东西,需要哪些具体的功能和具体的信息,如订单包含“订单ID”、“订单金额”、”订单地址“等。物理建模     主要内容:针对逻辑模型的结果,在具体的物理介质上实现,如采用何种数据库,然

2016-08-29 10:42:33 4023

原创 星型模型 vs 雪花模型 vs 星座模型

星型模型     核心是一个事实表及多个非正规化描述的维度表组成。雪花模型     它是星型模型的扩展,不同的是维度表被规范化,进一步分解到附加表中。星座模型     由多个事实表组合,维护是公共的,可以共享。它是数据仓库最常使用的模型。

2016-08-26 21:58:44 5187

原创 Spark 介绍

Spark 是什么?    Spark是UC Berkeley开源的类Haddop Map-reduce的通用并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有map reduce的优点;同时Spark可Job的中间输出和结果可以保存在内存中,从而不再需要读写hdfs,因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的map reduce算法。

2016-08-26 15:28:29 1051

原创 Hash Join vs Nest Loop vs Sort Merge

Hash Join    将小表(内表)存于hash area内存中用作hash table,之后全扫描大表(外表)的每条记录并在连接的列上做哈希算法,查询是否能匹配hash table。如果内存放不下小表则需要把小表按照一定的哈希算法进行分割,同时大表也根据相应的算法进行分割,然后大表相应的块与小表相应的块生成的hash table进行join,最后把所有join的结果合并起来。Ne

2016-08-26 09:31:25 819

原创 Linux Source 命令

Source 命令    定义:在当前bash环境下读取并执行FileName中的命令。该命令通常也用.代替,例如source .bash_profile与. .bash_profile是相同的。     Source filename 与 sh filename 及 ./filename的区别    1、当shell脚本具有可执行权限时,sh filename与./f

2016-08-25 23:01:17 753

原创 数据库设计三范式

1NF    字段不可分;2NF    有主键,非主键字段依赖主键;3NF    非主键字段不能相互依赖;

2016-08-25 12:27:18 615

原创 Hive vs HBase

Hive    Hive 是一款构建于Hadoop之上的数据仓库。可以使用HQL语言查询HDFS上面的数据。HQL是一种类SQL语言,最终转换为Map-Reduce任务。Hive本身不存储数据,数据都存储于HDFS上,因此Hive上面的表都是逻辑表,只是表的元数据。    Hive 运行时间比较长因为默认情况下Hive会遍历整张表,不过这种情况可以使用分区表得以解决。    Hiv

2016-08-24 09:03:10 1138

原创 Lambda架构 vs Kappa架构

Architecture

2016-08-18 15:18:29 23673 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除