容量的单位
顺序:从小到大
1024
MB->GB->TB->PB->EB->ZB->YB
名言:大数据胜于好算法
大数据真实需求案例:邮件公司日志,每月运行一个mapreduce,任务帮助公司决定在哪些Rackspace数据中心需要添加新的服务器
硬盘操作的延迟主要受两方面影响:
1、寻址时间:将磁头移动到特定的硬盘位置进行读写操作的过程
2、传输速率,取决于硬盘的带宽,eg:固态硬盘和普通硬盘
传统关系数据库 | MapReduce | |
数据大小 | GB | PB |
数据存储 | 交互式和批处理 | 批处理 |
更新 | 多次读/写 | 一次写入,多次读取 |
结构 | 静态模式 | 动态模式 |
完整性 | 高 | 低 |
横向扩展 | 非线性 | 线性 |
结构化数据:有类型有数据,比如JAVA String a= 1;eg:XML数据
半结构数据:有数据无类型,比如PHP $a = 1;eg:Excel数据
非结构数据:无内部结构纯文本图片
Hadoop发展史
名字是飞象,小朋友起的名字,好拼写,含义宽泛,易于传播
hadoop在雅虎 腾飞
版本1.x ,0.22,2.x