- 博客(3)
- 资源 (2)
- 收藏
- 关注
原创 Spark Shell简单使用
基础Spark的shell作为一个强大的交互式数据分析工具,提供了一个简单的方式学习API。它可以使用Scala(在Java虚拟机上运行现有的Java库的一个很好方式)或Python。在Spark目录里使用下面的方式开始运行:./bin/spark-shellSpark最主要的抽象是叫Resilient Distributed Dataset(RDD)的弹性分布式集合。RDDs可以使用Ha
2016-07-24 16:41:49 14146
原创 区别RDD、DataFrame和DataSet
Spark1.3.0中,以Spark SQL原有的SchemaRDD为蓝本,引入Spark DataFrame API,不仅为Scala,Python,Java三种语言环境提供了形如R和Pandas的API,而且自然而然地继承了Spark SQL的分布式数据处理能力。对于RDD、DataFrame和DataSet之间的区别目前了解的还不是很清楚,所以在下文中进行相互之间的对比,区分其中的异同。
2016-07-24 12:03:29 1223
原创 Spark简要学习
Apache Spark is a fast and general engine for large-scale data processing.
2016-07-23 12:49:32 1622
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人