![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
_淡若清风_
关注机器学习/数据挖掘、高动态范围图像、数学
展开
-
SPARK学习笔记
SPARK系统架构Hadoop虽然已成为大数据技术的事实标准,最主要的缺陷是其MapReduce计算模型延迟过高以及磁盘IO开销大,无法胜任实时、快速计算的需求,因而只适用于离线批处理的应用场景。SPARK相比于Hadoop的优势,1)Spark提供了内存计算, 大大减少了IO开销,中间结果直接放到内存中,带来了更高的迭代运算效率;2)Spark基于DAG的任务调度执行机制,要优于MapReduce的迭代执行机制。几个重要的概念:RDD:弹性分布式数据集(Resilient D.原创 2020-09-26 11:57:27 · 197 阅读 · 0 评论 -
HIVE架构
HIVE架构Hive组件用户接口/界面 Hive是一个数据仓库基础工具软件,可以创建用户和HDFS之间互动。用户界面,Hive支持是Hive的Web UI,Hive命令行,HiveHD洞察(在Windows服务器),用户提交查询的地方。Meta Store元数据存储 Hive选择各自的数据库服务器(一般是Mysql),用以储存表,数据库,列模式等元数据,在功能上Metastore分为两个部分:用户的请求服务和存储存储部署的三种模式:1.内嵌模式内嵌模...原创 2020-09-06 17:27:09 · 207 阅读 · 0 评论 -
Hbase 学习笔记
HbaseHBASE由Google的Bigtable设计而来的面向列族的存储的非关系数据库,主要偏向适合数据分析。优点和缺点列式数据库优点,列式数据库会把相同列的数据都放在一块即列为单位存储。当我们查询某一列的时候只需要调出相应的块即可,这样还可以减少很多I/O。高压缩比如果数据元素间的相似性很高的话可以进行大幅度的压缩,相似度越高压缩比越大。即节约了空间又减少了I/O,从而提高性能。高并发,极易扩展Hbase的极易扩展主要体现在两个方面,一个是基于上层处理能力...原创 2020-09-06 17:33:35 · 2338 阅读 · 2 评论 -
KUDU学习笔记
Kudu现存系统针对结构化数据存储与查询的一些痛点问题,结构化数据的存储,通常包含如下两种方式:静态数据通常以Parquet/Carbon/Avro形式直接存放在HDFS中,吞吐能力大,适合离线分析,随机读写能力差,难以支持单条记录级别的更新。 可变数据的存储通常选择面向列族的HBase或者Cassandra,高效随机读写,吞吐能力小,不适合离线分析场景。Kudu的设计是结合了Hbase的高效随机读写和HDFS高吞吐能力一种折中处理,既能支持OLTP型实时读写能力又能支持OLAP型分析。另外一个原创 2020-09-06 18:58:34 · 553 阅读 · 0 评论