内存计算框架Spark-(FB)
内存计算框架Spark
一角残叶
人生如逆旅,我亦是行人
展开
-
内存计算框架Spark学习笔记(1)—— Spark Standalone模式配置
1 Spark 和 MapReduce 对比MapReduceSpark数据存储结构:磁盘HDFS文件系统的 split使用内存构建RDD编程范式: Map + RedcuceDAG: Transformation + action计算中间数据落磁盘,IO 即序列化,反序列化代价大计算中间数据在内存Task 以进程的方式维护,任务启动就有数秒Task...原创 2019-01-21 22:22:50 · 334 阅读 · 0 评论 -
内存计算框架Spark学习笔记(2)—— Spark RDD 五大特性
1 Spark RDD 的五个特点一系列的分片,类似 Hadoop 中的split;在每个分片都有一个函数去迭代计算它;一系列的依赖;对于一个 K-V 的 RDD 可以指定一个 partition,告诉它如何分片,常用的有 hash,range数据本地性;...原创 2019-01-22 12:14:11 · 405 阅读 · 0 评论 -
内存计算框架Spark学习笔记(3)—— Spark Application监控 HistoryServer 配置
1 Spark HistoryServer 配置spark-env.shSPARK_HISTORY_OPTS=-Dspark.history.fs.logDirectory=file:///home/hadoop/appsData/sparkData/historylogsspark-defaults.confspark.eventLog.enabled tr...原创 2019-01-22 19:08:52 · 290 阅读 · 0 评论 -
内存计算框架Spark学习笔记(4)—— Spark Application 运行的两种方式 Client 和 Cluster
1 spark-submit 运行参数[hadoop@node1 ~]$ spark-submit --helpUsage: spark-submit [options] <app jar | python file> [app arguments]Usage: spark-submit --kill [submission ID] --master [spark://...]...原创 2019-01-22 21:58:24 · 283 阅读 · 0 评论