Spark
Tmcios
这个作者很懒,什么都没留下…
展开
-
Spark初学笔记(一)
Apache Spark™是用于大规模数据处理的快速和通用引擎。(Apache Spark™ is a fast and general engine for large-scale data processing. )原创 2019-05-06 23:37:16 · 1228 阅读 · 1 评论 -
Spark初学笔记(二)
Spark初学笔记(二) RDD(Resilient Distributed Datasets) Spark围绕弹性分布式数据集(RDD)的概念展开,RDD是一个可以并行操作的容错的容错集合。创建RDD有两种方法:并行化 驱动程序中的现有集合,或引用外部存储系统中的数据集,例如共享文件系统,HDFS,HBase或提供Hadoop InputFormat的任何数据源。 RDD有两种操作算子:Tran...原创 2019-05-06 14:44:25 · 896 阅读 · 0 评论