自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 Yarn资源调度

由于Yarn良好的兼容性和扩展性,目前可以支持大部分数据引擎,所以了解Yarn的资源调度原理很有必要,Yarn主要由四个重要角色组成:ResourceManager:顾名思义资源管理器,主要负责资源管理和调度,ResourceManager主要由两个组件构成:ApplicationManager,主要负责两类...

2019-11-21 19:03:52 126

转载 Hbase RowKey设计原理

rowkey设计原则和方法rowkey设计首先应当遵循三大原则:rowkey长度原则rowkey是一个二进制码流,可以为任意字符串,最大长度为64kb,实际应用中一般为10-100bytes,它以byte[]形式保存,一般设定成定长。一般越短越好,不要超过16个字节,注意原因如下:1、目前操作系统都是64位系...

2019-11-21 18:47:47 871

转载 Sqoop

1 Sqoop简介      Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS与Hadoop之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库...

2019-11-21 18:38:36 264

转载 常见的压缩格式

压缩的好处和坏处好处减少存储磁盘空间降低IO(网络的IO和磁盘的IO)加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度坏处由于使用数据时,需要先将数据解压,加重CPU负荷2. 压缩格式压缩比压缩时间可以看出,压缩比越高,压缩时间越长,压缩比:Snappy>LZ4>LZO>GZIP>BZIP2需要安装;linux系统下没有对应的命令d. b...

2019-11-21 18:35:44 876

转载 数据仓库和数据库的区别

什么是数据仓库? 数据仓库(Data Warehouse),可简写为DW或DWH,数据仓库,是为了企业所有级别的决策制定计划过程,提供所有类型数据类型的战略集合。它出于分析性报告和决策支持的目的而创建。为需要业务智能的企业 ,为需要指导业务流程改进、监视时间,成本,质量以及控制等;数据仓库能干什么?(举几个栗子)年度销售目标的制定,需要根据以往的历史报表进行决策,不能随便制定。优化业务流...

2019-11-21 18:25:06 287

转载 Yarn三种调度策略

理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。  在Yarn中有三种调度器可以选择:FI...

2019-11-21 18:21:01 1661

转载 常见垃圾回收器分类

垃圾回收器分为新生代和老年代垃圾回收器。新生代垃圾回收器:Serial(单线程)、ParNew(多线程)、Parallel Scavenge(多线程)老年代垃圾回收器:Serial Old(单线程)、Parallel Old(多线程)、CMS(标记-清除算法)整堆回收器:G1新生代垃圾回收器一般采用复制算法回收垃圾,优点是效率高,缺点是内存利用率低老年代垃圾回收器一般采用标记-整理算法...

2019-11-21 18:15:24 273

转载 索引原理-btree索引与hash索引的区别

btree索引是 一级索引,不支持区间查询操作,但数据量大的时候查询速度快hash索引是 二叉树索引,具有二叉树的特点Hash索引结构的特殊性,其检索效率非常高,索引的检索可以一次定位,不像B-Tree索引需要从根节点到枝节点,最后才能访问到页节点这样多次的IO访问,所以Hash索引的查询效率要远高于B-Tree索引。可能很多人又有疑问了,既然Hash索引的效率要比B-Tree高很多,为什么...

2019-11-21 18:12:18 481

转载 B、B+、LSM树

动态查找树主要有:二叉查找树、平衡二叉树、红黑树、B树、B+树。前面三种是典型的二叉查找树,查找的时间复杂度是O(log2N)与树的深度有关系,那么降低树的深度也就可以提升查找效率。这时就提出了平衡多路查找树,也就是B树以及B+树。B树和B+树非常典型的场景就是用于关系型数据库的索引(MySQL)B树B树是一种平衡多路搜索树,B树与红黑树最大的不同在于,B树的结点可以有多个子女,从几个到几千...

2019-11-21 18:05:03 177

原创 Impala

Impala一、简介Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点是CDH平台首选的PB级大数据实时查询分析引擎二、架构无主模型Impalad数量 = DataNode数量 DataNode负责存数据,Impalad负责计算客户端可以预估数据量的大小,来指定适合...

2019-11-12 17:43:51 238

原创 Flume

Flume一、定义Flume是一个高可用的,高可靠的,分布式海量日志采集、聚合和传输的系统Flume基于流式架构,灵活简单Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS中二、组成架构1 架构图Tips:​ 数据流动是batch​ Source端不是直接将数据传给Channel,而是将数据经过临时缓存(Transaction) 再传给Channel...

2019-11-12 17:33:02 181

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除