![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数仓
A210810
这个作者很懒,什么都没留下…
展开
-
如何解决Hbase的数据热点问题
Rowkey散列 由于数据是被按照Rowkey的字典顺序存储的,诺Rowkey顺序性较强会减弱Hbase分布式存储的特点,千万数据热点,在高并发数据读写时,会千万部分 region过载严重时会千万节点失陪,影响其他数据访问(一个忙,一个闲) 散列的方案 Hdfs可以让数据均衡分配,可重构,可以使用Get等方式快速访问数据 加随机数,数据均衡 ...原创 2020-07-30 15:14:21 · 561 阅读 · 0 评论 -
Hbase都包含那几部分
Rowkey键 列族, 值 时间戳。版本 按照Rowkey字典(ASCII顺序存储),基于Rowkey的高校检索,同时继承HDFS的吞吐能力原创 2020-07-30 14:25:18 · 364 阅读 · 0 评论 -
Azkaban介绍?
Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的Web用户界面维护和跟踪你的工作流。 ...原创 2020-07-30 14:21:24 · 153 阅读 · 0 评论 -
大数据面试题
HIve和Hbase有什么区别 Hive Hived的定位是数据仓库,虽然有增删改查,但删改查对应的是整张表而不是单行数据,查询的延迟较高,本质是更加方便的使用MapReduce的威力来进行离线分析的一个数据工具 Hbase hbase的定位是hadoop的数据库,是一个典型的NoSql所以Hbase是用来在大量数据中进行延迟的随机查询 Hive的特点: 1:可扩展:Hive可以自由的扩展集群的规模,一般情况下不需要从起服务 2:延展性Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数 3:原创 2020-07-29 17:36:25 · 475 阅读 · 0 评论 -
Flume介绍与原理
1:什么是Flume? apache Flume 是一个可以收集列如日志,事件等数据资源,将这些数量极大的数据从各项数据资源中集中起来的存储工具,服务,或者数字集中机制,flume具有高可用分布式,配置工具,设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,Hbase等集中存储器中,结构如下图。 2:应用的场景 比如我们在做一个电子商务网站,我们想从消费用户中访问点特定的节点区域来分析消费者的行为或购买意图,这样我们就可以更加快速的将客户想要的推送到界面上, 实现这些我们需要原创 2020-07-29 16:07:08 · 4227 阅读 · 1 评论 -
Hive最全命令
Hive常用命令 hive>CREATE TABLE t_hive(a int,b int,c int) ROW FORMAT DELIMTED FIELDS TERMINATED BY ‘\t’; 导入数据t_hive.txt到t_hive表 hive> LOAD DATA LOCAL INPATH ‘/HOME/cos/demo/t_hive.txt’ OVERWRITE INTO TABLE t_hive; 正则匹配表名 hive> show tables ‘t’; 增加一个字段 h原创 2020-07-28 14:52:51 · 314 阅读 · 0 评论 -
Hive简介以及原理
Hive简介 Hive是用来干什么的?有什么作用? Hive来源是由脸书实现并开源 是一个基于Hadoop的一个数据仓库,底层数据在Hdfs之上。 可以使用Hve更方便的使用Hql处理和计算HDFS上的结构化的数据,使用与离线的批量数据计算. Hive可以提供Hql查询功能,可以将数据映射为一张表,Hive本质是将sql语句转换为MapReduce来运行。 Hive 依赖与HDFS存储数据,Hive将Hql转换成MapReduce执行,所以说Hive是基于Hadoop的一个数据仓库工具,是指计算一款基于Hd原创 2020-07-28 14:28:19 · 643 阅读 · 0 评论