sig377-CSDN博客

翻译 Spark1.1.1官网文档翻译5SparkSQL

SparkSQL SparkSQL技术允许使用关系型查询语句SQL、HiveSQL或者在Spark上面执行的scala这部分的核心是一种新型的RDD-SchemaRDD。SchemaRDD由行对象（Row Objects）以及描述了每一列的数据类型的一个架构组成（Schema）一个Schema类似于传统数据库中的一张表，可以从现有的RDD文件、文件片段、json数据、或者从一个Hive

2014-12-19 13:53:28 1225

翻译 Spark1.1.1官网文档翻译4Spark编程指南

Spark 编程指南在较高水平上，每个Spark应用由一个程序驱动在集群上面运行用户的主要功能和Main方法。主要的Spark抽象是一个弹性分布式数据集（RDD）这是一个在集群节点上可以进行划分并能够并行执行的元素。RDD是从Hadoop文件系统创建的文件（或者其他Hadoop支持的文件系统）或者是一个现有的Scala集合中的驱动程序转化而来。用户也可以要求RDD持久化，可以有效的并行重复执行

2014-12-19 13:52:44 1030

翻译 Spark1.1.1官网文档翻译3任务提交

提交任务Spark-submit是bin目录下的用来在集群上启动应用程序的方法。它可以使Spark使用统一的接口管理ClusterManager，使得你不必为每一个程序进行单独部署打包应用的依赖如果你的代码依赖于其他的项目，你将需要把应用程序分发到集群上面，为此，创建一个打包文件（或者更高级的“JAR”文件）包含代码和它所依赖的。使用SBT或者Maven进行加载。创建打包文件的时

2014-12-19 13:50:49 653

翻译 Spark1.1.1官网文档翻译2快速开始

快速开始 Spark提供了一个外部的API工具来进行交互式分析数据，使用一个Scala方式（利用java虚拟机）或者Python方式，只需要使用以下方式打开./bin/spark-shellSpark的基本抽象是一个弹性分布式数据集简称RDD，RDD可以从InputFormat创建（如HDFS文件）或者其它的transformations产生。scala> valtextFil

2014-12-19 13:49:43 550

翻译 Spark1.1.1官网文档翻译1前言部分

地址：spark.apache.org/docs/latest/index.html关于环境Spark可以运行在Windows和所有类Linux操作系统之上（比如Linux和MacOS）可以很简单的进行单机运行，只要你的机子里面装好了java环境，配置好了PATH和JAVA_HOME变量Spark1.1运行在java6以上版本，Python2.6以上版本，以及Scala2.10以上

2014-12-19 13:46:18 591

java 认证终极指南

java 认证终极指南，来源于网络，htm格式其中包含了SCJP5.0\SCWCD1.4\SCBCD1.3\SCBCD5.0\SCDJWS1.4\SCDJWS5.0\SCEA5.0\IBM Test 255\IBM Test 257\IBM Test 287\IBM Test 733等众多英文版参考资料，考试必备，内含源码，本人特别贡献出来给大家，绝对物超所值！

2010-07-28