初识HADOOP---大数据分析技术笔记1

MapReduce 模型

该模型抽象出硬盘读写问题,并将其转化为对一个数据集(由键值对组成)的计算,它是一个批处理系统

传统关系型数据库MapReduce
GB数量级PB数量级
交互式和批处理批处理
多次读写一次写入多次读取
事务:ACID
写时模式读时模式
完整性高完整性低
非线性横向扩展线性横向扩展

这里有几个概念很重要
ACID:
(1)原子性(Atomicity):一个事务必须被视为一个不可分割的最小工作单元,整个事务中的所有操作要么全部提交成功,要么全部失败回滚,对于一个事务来说,不可以只执行其中的一部分操作。

(2)一致性(Consistency):数据库总是从一个一致性的状态转到另一个一致性的状态。

拿转账来说,假设用户A和用户B两者的钱加起来一共是5000,那么不管A和B之间如何转账,转几次账,事务结束后两个用户的钱加起来应该还得是5000,这就是事务一致性。

(3)隔离性(Isolation):通常来说,一个事务所做的修改在最终提交之前,对其他事务是不可见的。

(4)持久性(Durability):一旦事务提交,则其所做的修改就会永久的保存到数据库中。不会因为系统故障等情况而丢失所做的修改。
读时模式和写时模式:
传统数据库是写时模式(schema on write),即数据在写入数据库时对模式进行检查。Hive数据仓库在数据加载时不进行验证,而是在查询时进行,是读时模式(schema on read)。写时模式有利于提升查询性能,因为数据库可以对列进行索引,并对数据压缩。但作为权衡,此时加载数据会花更多时间。

学习内容

名称描述
HDFS分布式文件系统
MapReduce编程模型
YARN资源调度管理器
HBase分布式数据库
ZooKeeper分布式配置服务
Avro/Flume数据序列化
Sqoop块数据传输
Hive数据仓库

以上是我学习过的内容,现在面临秋招和研究生面试,面试过程中也问到了相关内容,所以现在重新复习一次。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值