- 博客(5)
- 资源 (14)
- 收藏
- 关注
翻译 Spark1.1.1官网文档翻译5SparkSQL
SparkSQL SparkSQL技术允许使用关系型查询语句SQL、HiveSQL或者在Spark上面执行的scala 这部分的核心是一种新型的RDD-SchemaRDD。SchemaRDD由行对象(Row Objects)以及描述了每一列的数据类型的一个架构组成(Schema)一个Schema类似于传统数据库中的一张表,可以从现有的RDD文件、文件片段、json数据、或者从一个Hive
2014-12-19 13:53:28
1198
翻译 Spark1.1.1官网文档翻译4Spark编程指南
Spark 编程指南 在较高水平上,每个Spark应用由一个程序驱动在集群上面运行用户的主要功能和Main方法。主要的Spark抽象是一个弹性分布式数据集(RDD)这是一个在集群节点上可以进行划分并能够并行执行的元素。RDD是从Hadoop文件系统创建的文件(或者其他Hadoop支持的文件系统)或者是一个现有的Scala集合中的驱动程序转化而来。用户也可以要求RDD持久化,可以有效的并行重复执行
2014-12-19 13:52:44
993
翻译 Spark1.1.1官网文档翻译3任务提交
提交任务 Spark-submit是bin目录下的用来在集群上启动应用程序的方法。它可以使Spark使用统一的接口管理ClusterManager,使得你不必为每一个程序进行单独部署 打包应用的依赖 如果你的代码依赖于其他的项目,你将需要把应用程序分发到集群上面,为此,创建一个打包文件(或者更高级的“JAR”文件)包含代码和它所依赖的。使用SBT或者Maven进行加载。创建打包文件的时
2014-12-19 13:50:49
628
翻译 Spark1.1.1官网文档翻译2快速开始
快速开始 Spark提供了一个外部的API工具来进行交互式分析数据,使用一个Scala方式(利用java虚拟机)或者Python方式,只需要使用以下方式打开 ./bin/spark-shell Spark的基本抽象是一个弹性分布式数据集简称RDD,RDD可以从InputFormat创建(如HDFS文件)或者其它的transformations产生。 scala> valtextFil
2014-12-19 13:49:43
519
翻译 Spark1.1.1官网文档翻译1前言部分
地址:spark.apache.org/docs/latest/index.html 关于环境 Spark可以运行在Windows和所有类Linux操作系统之上(比如Linux和MacOS)可以很简单的进行单机运行,只要你的机子里面装好了java环境,配置好了PATH和JAVA_HOME变量 Spark1.1运行在java6以上版本,Python2.6以上版本,以及Scala2.10以上
2014-12-19 13:46:18
553
java 认证终极指南
2010-07-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人