自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 Presto简介(及时查询)

1.1 Presto概念 Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。Presto的设计和编写完全是为了解决像Facebook这样大规模的数据仓库的交互式分析和处理速度的问题。注意:虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、Oracle的代替品,也不能用来处理在线事务(OLTP)。1...

2019-04-26 20:52:11 3091

原创 数仓理论之关系建模与维度建模

关系模型关系模型主要应用与OLTP系统中,为了保证数据的一致性以及避免冗余,所以大部分业务系统的表都是遵循第三范式的。维度模型维度模型主要应用于OLAP系统中,因为关系模型虽然冗余少,但是在大规模数据,跨表分析统计查询过程中,会造成多表关联,这会大大降低执行效率。所以把相关各种表整理成两种:事实表和维度表两种。所有维度表围绕着事实表进行解释。雪花模型、星型模型和星座模型...

2019-04-26 20:37:42 4932

原创 数仓理论之范式理论

范式概念 关系型数据库设计时,遵照一定的规范要求,目的在于降低数据的冗余性,目前业界范式有:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)、第五范式(5NF)。范式的标准定义是:符合某一种级别的关系模式的集合,表示一个关系内部各属性之间的联系的合理化程度。通俗地讲,范式可以理解为一张数据表的表结构,符合的设计标准的级...

2019-04-26 20:33:45 425

原创 数仓理论之同步策略

数据同步策略的类型包括:全量表、增量表、新增及变化表、拉链表全量表:存储完整的数据。 增量表:存储新增加的数据。 新增及变化表:存储新增加的数据和变化的数据。 拉链表:对新增及变化表做定期合并。实体表同步策略实体表:比如用户,商品,商家,销售员等实体表数据量比较小:通常可以做每日全量,就是每天存一份完整数据。即每日全量。维度表同步策略维度表:比如订单状态,审...

2019-04-26 20:18:43 1683

原创 数仓理论之表的分类

实体表 实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。用户表: 用户id 姓名 生日 性别 邮箱 用户等级 创建时间 1 张三 2011-11-11...

2019-04-26 20:13:08 1482 5

原创 HBase安装

注:服务器的时间必须要做同步,否则hbase集群可能会启动失败Zookeeper正常部署首先保证Zookeeper集群的正常部署,并启动之: [atguigu@hadoop102 zookeeper-3.4.10]$ bin/zkServer.sh start [atguigu@hadoop103 zookeeper-3.4.10]$ bin/zkServer.sh sta...

2019-04-09 13:13:33 153

原创 Hbase工具类

package com.hbase.test.util;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.*;import org.apache.hadoop.hbase.client.*;import org.apache.hadoop.hbase.util.Bytes;impor...

2019-04-08 18:09:29 164

原创 HBase架构

从图中可以看出Hbase是由Client、Zookeeper、Master、HRegionServer、HDFS等几个组件组成,下面来介绍一下几个组件的相关功能:1)ClientClient包含了访问Hbase的接口,另外Client还维护了对应的cache来加速Hbase的访问,比如cache的.META.元数据的信息。2)ZookeeperHBase通过Zookeeper来...

2019-04-07 21:19:13 267

原创 Hbase特点

1)海量存储Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利。2)列式存储这里的列式存储其实说的是列族(ColumnFamily)存储,Hbase是根据列族来存储数据的。列族下面可以有非常多的列,列族在创建表的时候就必须指定。...

2019-04-07 21:15:37 208

原创 HBase简介

什么是HBaseHBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。官方网站:http://hbase.apache.org-- 2006年Google发表BigTable白皮书-- 2006年开始开发HBase-- 2008年北京成功开奥运会,程序员默默地将HBase弄成了Hadoop...

2019-04-07 21:15:04 146

原创 修改网络YUM源

默认的系统YUM源,需要连接国外apache网站,网速比较慢,可以修改关联的网络YUM源为国内镜像的网站,比如阿里yum源。1.前期文件准备(1)前提条件linux系统必须可以联网(2)在Linux环境中访问该网络地址:https://opsx.alibaba.com/mirror,点击“帮助”按其说明进行操作,如图2.测试[root@hadoop101 yum....

2019-04-04 23:39:40 601

原创 YUM的常用命令

YUM的常用命令1.基本语法 yum [选项] [参数]2.选项说明 选项 功能 -y 对所有提问都回答“yes” 3.参数说明 参数 功能 install 安装rpm软件包 update ...

2019-04-04 23:30:21 165

原创 RPM命令

RPM查询命令(rpm -qa)1.基本语法 rpm -qa (功能描述:查询所安装的所有rpm软件包)2.经验技巧 由于软件包比较多,一般都会采取过滤。rpm -qa | grep rpm软件包3.案例实操(1)查询firefox软件安装情况[root@hadoop101 Packages]# rpm -qa |grep firefo...

2019-04-04 23:27:13 154

原创 crond 系统定时任务

crond 服务管理1.重新启动crond服务[root@hadoop101 ~]# service crond restartcrontab 定时任务设置1.基本语法 crontab [选项]2.选项说明 选项 功能 -e 编辑crontab定时任务 -l ...

2019-04-04 23:25:20 341

原创 进程线程类

进程是正在执行的一个程序或命令,每一个进程都是一个运行的实体,都有自己的地址空间,并占用一定的系统资源。ps 查看当前系统进程状态ps:process status 进程状态1.基本语法 ps aux|grep xxx (功能描述:查看系统中所有进程) ps -ef| grep xxx (功能描述:可以查看子父进程之间的关系)2.选项说明 ...

2019-04-04 23:23:10 232

原创 磁盘分区类

df 查看磁盘空间使用情况 df: disk free 空余硬盘1.基本语法df 选项 (功能描述:列出文件系统的整体磁盘使用量,检查文件系统的磁盘空间占用情况)2.选项说明 选项 功能 -h 以人们较易阅读的 GBytes, MBytes, KBytes 等格式自行显示; 3.案例实操(...

2019-04-04 23:17:36 189

原创 搜索查找类

find 查找文件或者目录find指令将从指定目录向下递归地遍历其各个子目录,将满足条件的文件显示在终端。1.基本语法find [搜索范围] [选项]2.选项说明 选项 功能 -name<查询方式> 按照指定的文件名查找模式查找文件 -user<用户名> ...

2019-04-04 23:13:44 295

原创 压缩和解压类

gzip/gunzip 压缩1.基本语法 gzip 文件 (功能描述:压缩文件,只能将文件压缩为*.gz文件) gunzip 文件.gz (功能描述:解压缩文件命令)2.经验技巧(1)只能压缩文件不能压缩目录(2)不保留原来的文件3.案例实操(1)gzip压缩[root@hadoop101 ~]# lstest.java[root...

2019-04-04 23:11:46 216

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除