内存计算框架Spark-(FB)
内存计算框架Spark
一角残叶
人生如逆旅,我亦是行人
展开
-
内存计算框架Spark学习笔记(1)—— Spark Standalone模式配置
1 Spark 和 MapReduce 对比 MapReduce Spark 数据存储结构:磁盘HDFS文件系统的 split 使用内存构建RDD 编程范式: Map + Redcuce DAG: Transformation + action 计算中间数据落磁盘,IO 即序列化,反序列化代价大 计算中间数据在内存 Task 以进程的方式维护,任务启动就有数秒 Task...原创 2019-01-21 22:22:50 · 357 阅读 · 0 评论 -
内存计算框架Spark学习笔记(2)—— Spark RDD 五大特性
1 Spark RDD 的五个特点 一系列的分片,类似 Hadoop 中的split; 在每个分片都有一个函数去迭代计算它; 一系列的依赖; 对于一个 K-V 的 RDD 可以指定一个 partition,告诉它如何分片,常用的有 hash,range 数据本地性; ...原创 2019-01-22 12:14:11 · 432 阅读 · 0 评论 -
内存计算框架Spark学习笔记(3)—— Spark Application监控 HistoryServer 配置
1 Spark HistoryServer 配置 spark-env.sh SPARK_HISTORY_OPTS=-Dspark.history.fs.logDirectory=file:///home/hadoop/appsData/sparkData/historylogs spark-defaults.conf spark.eventLog.enabled tr...原创 2019-01-22 19:08:52 · 319 阅读 · 0 评论 -
内存计算框架Spark学习笔记(4)—— Spark Application 运行的两种方式 Client 和 Cluster
1 spark-submit 运行参数 [hadoop@node1 ~]$ spark-submit --help Usage: spark-submit [options] <app jar | python file> [app arguments] Usage: spark-submit --kill [submission ID] --master [spark://...] ...原创 2019-01-22 21:58:24 · 305 阅读 · 0 评论