大数据
文章平均质量分 82
面试
码上得天下
这个作者很懒,什么都没留下…
展开
-
Hadoop架构原理简介
Hadoop 是一个分布式计算平台,最初由 Apache 软件基金会开发,用于处理大规模数据集的分布式存储和处理。转载 2023-10-12 14:14:59 · 101 阅读 · 0 评论 -
Hadoop、Hbase、Hive三者关系
具体而言,Hadoop是基础设施,它提供了可扩展的分布式存储和计算能力,通过将数据划分成多个块并分配到不同的计算节点上进行并行处理来实现高效的大数据处理。而HBase则是在Hadoop上构建的分布式NoSQL数据库,它可以提供快速的数据读写和实时查询,适用于需要高速访问的结构化数据。总之,Hadoop、HBase和Hive都是为了更好地处理大规模数据而设计的,它们之间有着紧密的联系,可以相互协作实现大数据处理和分析的需求。Hadoop、HBase和Hive是三个常用于大数据处理的开源工具。转载 2023-10-12 13:39:26 · 324 阅读 · 0 评论 -
流式计算的三种框架
Flink创造性地统一了流处理和批处理,作为流处理看待时输入数据流是无界的,而批处理被作为一种特殊的流处理,只是它的输入数据流被定义为有界的。Flink程序由Stream和Transformation这两个基本构建块组成,其中Stream是一个中间结果数据,而Transformation是一个操作,它对一个或多个输入Stream进行计算处理,输出一个或多个结果Stream。其中,流式计算和批量计算是两种主要的大数据计算模式,分别适用于不同的大数据应用场景。针对流数据+批数据的计算框架。转载 2023-10-12 13:28:07 · 1407 阅读 · 0 评论 -
大数据三驾马车与hadoop起源
Google成立于1998年是全球最大的搜索引擎公司,主要业务为搜索、云计算、广告技术等,主要利润来自于广告等服务。在21世纪初互联网刚刚兴起,每个企业保存和生产的数据量并不大,已有的技术对数据的保存和处理完全满足业务上的需求。作为搜索引擎公司,google需要保存爬虫所获取的大量网页数据,还要对海量的数据进行快速的搜索、计算、排名等处理。转载 2023-10-11 15:19:37 · 206 阅读 · 0 评论 -
对比MySQL和ES后,毫不犹豫把百亿数据存到ClickHouse了
总的来说:一级索引和标记文件一一对齐,两个 索引标记之间的数据,就是一个数据区间,在数据文件中,这个数据区间的所有数据,生成一个压缩数据块。每列压缩数据文件,存储每一列的数据,每一列字段都有独立的数据文件,每一列都有对应的标记文件,保存了列压缩文件中数据的偏移量信息,与稀疏索引对齐,又与压缩文件对应,建立了稀疏索引与数据文件的映射关系。ClickHouse 通过分片,将一张表的数据水平分割在不同的节点上,随着业务的发展,当表数据的大小增加到很大时,也能够通过水平扩容, 保证数据的存储。转载 2023-10-11 15:13:13 · 2346 阅读 · 0 评论 -
面向未来的开源 OLAP 技术架构探讨以及选型实践
接下来介绍 StarRocks 的价值和一些关键技术。转载 2023-10-11 15:10:02 · 244 阅读 · 0 评论