目录
Google三驾马车
GFS
- 可扩展的大型数据密集型应用的分布式文件系统
百度百科:https://baike.baidu.com/item/GFS/1813072
MapReduce
- 超大集群的简单数据处理、大数据并行处理技术
百度百科:https://baike.baidu.com/item/MapReduce - 矢量编程语言:
如:Matlab,矢量(向量)操作,避免for循环。联想map映射过程,map是对列表中每个元素做计算(具体的计算通过传入的函数来实现)。 - 函数式编程:https://baike.baidu.com/item/函数式编程
接收函数作为参数。不修改变量,无需考虑死锁。联想reduce合并过程,reduce是对列表中每个元素做迭代计算。 - 备注:Map面对的是杂乱无章的互不相关的数据,它解析每个数据,从中提取出key和value,也就是提取了数据的特征。经过MapReduce的Shuffle阶段之后,在Reduce阶段看到的都是已经归纳好的数据了,在此基础上我们可以做进一步的处理以便得到结果。
BigTable
- 结构化数据的分布式存储系统
百度百科:https://baike.baidu.com/item/BigTable
HBase(CP而非AP)
HBase是分布式的、面向列的开源数据库,是BigTable的实现。
百度百科: