- 博客(5)
- 资源 (9)
- 收藏
- 关注
翻译 Spark 官方文档(5)——Spark SQL,DataFrames和Datasets 指南
Spark版本:1.6.2 概览Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完成特殊优化。可以通过SQL、DataFrames API、Datasets API与Spark SQL进行交互,无论使用何种方式,SparkSQL使用统一的执行引擎记性处理。
2016-07-21 11:33:49 8246
翻译 Spark 官方文档(3)——Standalone 模式
Spark版本:1.6.2 Spark除了支持Mesos和Yarn集群管理,还提供了一种standalone简单的部署模式。你可以手动启动一个master和多个worker构建standalone集群或者通过Spark官方脚本(后面详细介绍)启动。standalone可以在单台机器运行。在集群上安装Spark Standalone在集群的每个节点安装同一版本的spark程序,用户可以下载Spar
2016-07-19 11:30:55 2207
翻译 Spark 官方文档(4)——Configuration配置
Spark可以通过三种方式配置系统:通过SparkConf对象, 或者Java系统属性配置Spark的应用参数通过每个节点上的conf/spark-env.sh脚本为每台机器配置环境变量通过log4j.properties配置日志属性Spark属性Spark属性可以为每个应用分别进行配置,这些属性可以直接通过SparkConf设定,也可以通过set方法设定相关属性。 下面展示了在本地机使用
2016-07-19 11:12:57 6812
翻译 Spark 官方文档(2)——集群模式
Spark版本:1.6.2 简介:本文档简短的介绍了spark如何在集群中运行,便于理解spark相关组件。可以通过阅读应用提交文档了解如何在集群中提交应用。组件spark应用程序通过主程序的SparkContext对象进行协调,在集群上通过一系列独立的处理流程运行。为了便于迁移,SparkContext可以支持多种类型的集群管理器(spark standalone、Yarn、Me
2016-07-17 21:35:23 801
翻译 spark 官方文档(1)——提交应用程序
Spark版本:1.6.2spark-submit提供了在所有集群平台提交应用的统一接口,你不需要因为平台的迁移改变配置。Spark支持三种集群:Standalone、Apache Mesos和Hadoop Yarn。绑定应用程序依赖库如果你的应用程序依赖其他项目,需要将其一起打包,打包时需要包括依赖的第三方库。sbt和maven都有装配插件,可以指定hadoop和spark版本,
2016-07-17 21:20:25 828
中科院 matlab
2013-05-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人