大数据论文
文章平均质量分 91
中关村_周某
大家好,我是奔跑的洲洲
展开
-
《Hive - A Warehousing Solution Over a Map-ReduceFramework》
1.简介Hadoop是一种开源的MapReduce实现(以下简称MapReduce为MR),MR框架太慢了,并且开发人员需要自定义写MR代码,因此诞生了HiveHive是搭建在Hadoop上的开源的数据仓库Hive支持HQL(一种类SQL语言),它被编译成Hadoop上的MR任务Hive还包含catalog系统,叫做Hive-metastore,包含schema和staticics,这在数据分析和查询优化很有用处。2.Hive Database2.1 数据模型数据在Hive中被划分为Tab原创 2021-07-18 15:03:21 · 378 阅读 · 0 评论 -
《Kudu: Storage for Fast Analytics on Fast Data》论文笔记
一. kudu简介开源的、针对结构化数据的存储引擎支持低延迟随机访问、高效的分析型访问kudu是hadoop生态圈下的,支持多种访问模式,如 Impala、Spark、MapReduce原创 2021-07-11 11:59:09 · 355 阅读 · 0 评论 -
《Impala: A Modern, Open-Source SQL Engine for Hadoop》论文笔记
前言impala是2014年开源的MPP SQL引擎,阅读这篇论文是想深入对比impala和doris的区别(虽然doris的查询引擎大部分用的是impala)注:论文发表于2014年,可能部分文中描述的不支持的特性已更新一.摘要&简介Impala是一个开源的、集成于Hadoop的MPP(massive parallel process) SQL引擎,Impala为Hadoop上的查询分析提供了低延迟和高并发。SQL on Hadoop单纯是一个计算引擎,和底层的存储解耦合能读取大多数原创 2021-06-21 17:53:59 · 597 阅读 · 0 评论 -
《Mesa: Near Real-Time, Scalable Data Warehousing》论文阅读笔记
这篇论文发表于2013,阅读原因是想看看doris的存储系统的设计一.摘要&简介Mesa是谷歌存放广告的一个数据仓库,它有以下特点原子性更新(可能一条用户的动作会影响很多相关数据的更新,这些更新需要原子性、一次性完成)高度可拓展(方便应对后续源源不断的数据增加)高可用(不能有单点故障,就算整个数据中心挂了,数据仓库也不能宕机)查询性能高强一致性和正确性近乎实时更新且吞吐量大(1s100w行更新的吞吐量)、支持连续更新在线数据和元数据转化(用户常常修改表的schema,比如更改数据原创 2021-06-18 12:04:04 · 385 阅读 · 1 评论