![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
U2014684
这个作者很懒,什么都没留下…
展开
-
Spark运行原理
在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。 Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显。Spark提供的基于RDD的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Process...转载 2019-03-25 09:14:21 · 105 阅读 · 0 评论 -
Spark-submit提交作业
提交命令: ./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... # other options <appli...原创 2019-03-25 15:02:13 · 451 阅读 · 0 评论 -
RDD:A Fault-Tolerant Abstraction for In-Memory Cluster Computing
Abstract RDD是一个能让程序员以容错的方式在集群上运行内存计算任务的分布式内存的抽象概念。RDD主要被两种应用驱动所产生:迭代算法和交互式数据挖掘工具。在这两种情况下,将数据保存在内存中可以将性能提升一个数量级。为了有效地实现容错,RDDs基于对共享状态的粗粒度转换(transformations)而不是细粒度更新,提供了一种受限的共享内存形式。但是,我们展示了RDDs具...原创 2019-07-03 15:12:37 · 257 阅读 · 0 评论