什么是spark
- 一个计算很快的分布式平台,重点是快
spark 为什么快
- 基于内存
- DAG引擎切割有向无环图(目前还不懂)
与Hadoop比较
- 鸡贼一点,在迭代计算上spark比Hadoop快100倍(spark自己宣传的)
开发语言
- java scala r python
spark框架简介
- 最底层:mesos资源管理者(粗力度,细粒度)C++开发
- HDFS (Hadoop distribute file systesystem)基于磁盘的,放数据的
- tochyon
- 计算系统——spark core 或者mapreduce或者MPI或者storm或者hive或者sparkSQL或者spark streaming(流式处理)或者graphX
以上是伯克利技术栈想做的所有内容。