Spark
文章平均质量分 84
GarfieldEr007
这个作者很懒,什么都没留下…
展开
-
Spark集群配置
Spark集群配置环境:Ubuntu10.04, Hadoop 0.20.2, JDK 1.6, Spark 0.7.2, Scala 2.9.3前置条件:1、三台机器,这里通过创建三个VMware虚拟机来模拟三台物理机器2、Linux系统,例如Ubuntu、CentOS、Fedora等,这里是Ubuntu10.043、jdk for linux版本,这里是jd原创 2014-08-11 18:59:58 · 2597 阅读 · 1 评论 -
Apache Spark学习:利用Scala语言开发Spark应用程序
Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情。如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Java Programmers或者相关Scala书籍进行学习。本文将介绍3个Scala Spark编程实例,分别是WordCount、TopK和SparkJoin,分别代表了Spark转载 2016-03-20 14:08:33 · 1341 阅读 · 0 评论 -
Apache Spark学习:将Spark部署到Hadoop 2.2.0上
本文介绍的是如何将Apache Spark部署到Hadoop 2.2.0上,如果你们的Hadoop是其他版本,比如CDH4,可直接参考官方说明操作。需要注意两点:(1)使用的Hadoop必须是2.0系列,比如0.23.x,2.0.x,2.x.x或CDH4、CDH5等,将Spark运行在Hadoop上,本质上是将Spark运行在Hadoop YARN上,因为Spark自身只提供了作业转载 2016-03-20 13:11:54 · 1313 阅读 · 0 评论 -
Scala 中的函数式编程基础
主要来自 Scala 语言发明人 Martin Odersky 教授的 Coursera 课程 《Functional Programming Principles in Scala》。------------------------------部分一---------------------------------------很久以前写过一个非常简单的转载 2016-03-30 12:38:03 · 1600 阅读 · 0 评论 -
十分钟了解分布式计算:Spark
Spark是一个通用的分布式内存计算框架,本文主要研讨Spark的核心数据结构RDD的设计思路,及其在内存上的容错。内容基于论文Zaharia, Matei, et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing" Proceedings of转载 2016-03-15 18:29:46 · 2272 阅读 · 0 评论 -
Spark编程指南(Python版)
Spark编程指南译者说在前面:最近在学习Spark相关的知识,在网上没有找到比较详细的中文教程,只找到了官网的教程。出于自己学习同时也造福其他初学者的目的,把这篇指南翻译成了中文,笔者水平有限,文章中难免有许多谬误,请高手不吝赐教。本文翻译自Spark Programming Guide,由于笔者比较喜欢Python,在日常中使用也比较多,所以只翻译了Python部分,不过Java和Sc转载 2015-12-03 21:28:24 · 1641 阅读 · 0 评论 -
新手福利:Apache Spark 入门攻略
时至今日,Spark 已成为大数据领域最火的一个开源项目,具备高性能、易于使用等特性。然而作为一个年轻的开源项目,其使用上存在的挑战亦不可为不大,这里为大家分享 SciSpike 软件架构师 Ashwini Kuntamukkala 在 Dzone 上进行的 Spark 入门总结(虽然有些地方基于的是 Spark 1.0 版本,但仍然值得阅读)——Apache Spark:An Engine转载 2015-12-02 16:57:48 · 1469 阅读 · 0 评论 -
使用docker安装部署Spark集群来训练CNN(含Python实例)
使用docker安装部署Spark集群来训练CNN(含Python实例)本博客仅为作者记录笔记之用,不免有很多细节不对之处。还望各位看官能够见谅,欢迎批评指正。博客虽水,然亦博主之苦劳也。如需转载,请附上本文链接,不甚感激! http://blog.csdn.net/cyh_24/article/details/49683221实验室有4台神服务器,每台有8转载 2016-01-18 15:03:54 · 1533 阅读 · 0 评论 -
Spark随谈
Spark随谈(一)---总体架构Spark是一个小巧玲珑的项目,由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,充分体现了精简之美。系列文章见: Spark随谈 http://www.linuxidc.com/Linux/2013-08/88592.htmSpark之依赖(1)Map Re转载 2015-11-25 15:11:20 · 2338 阅读 · 0 评论 -
A Scala Tutorial for Java Programmers
A Scala Tutorial for Java ProgrammersEnglishEspañol한국어DeutschBy Michel Schinz and Philipp HallerIntroductionThis document gives a quick introduction to the Scala language andcompiler.转载 2015-11-25 15:17:54 · 1478 阅读 · 0 评论 -
理解Spark的核心RDD
与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通用的编程抽象(Unified Programming Abstraction)。这正是Spark这朵小火花让人着迷的地方。要转载 2015-11-25 15:25:44 · 1299 阅读 · 0 评论 -
Apache Spark学习:利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上,介绍如何利用Eclipse构建Spark集成开发环境。不建议大家使用eclipse开发spark程序和阅读源代码,推荐使用Intellij IDEA,具体参考文章:Apache Spark探秘:转载 2015-11-25 15:23:52 · 1760 阅读 · 0 评论 -
Spark安装与学习
Spark安装与学习 摘要:Spark是继Hadoop之后的新一代大数据分布式处理框架,由UC Berkeley的Matei Zaharia主导开发。我只能说是神一样的人物造就的神器,详情请猛击http://www.spark-project.org/1 Scala安装 当前,Spark最新版本是0.5,由于我写这篇文档时,版本还是0.4,因此本文下面的所有描述基转载 2015-11-25 15:20:52 · 1136 阅读 · 0 评论 -
Spark开发指南Spark Programming Guide
Spark Programming Guide Overview Linking with Spark Initializing Spark Using the Shell Resilient Distributed Datasets (RDDs) Parallelized Collections Ext转载 2015-11-25 15:14:24 · 2121 阅读 · 1 评论 -
Ubuntu上手动安装sbt
sbt(Simple Build Tool,简单构建工具),对Scala或Java语言进行编译,类似于Maven或Ant,它需要jdk1.6或更高的版本支持。sbt可以在windows或Linux环境下安装使用。 参见官网配置说明http://www.scala-sbt.org/release/tutorial/Manual-Installation原创 2014-08-16 14:05:07 · 4181 阅读 · 1 评论 -
Spark机器学习库(MLlib)指南
spark-1.6.1机器学习库(MLlib)指南MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。MLllib目前分为两个代码包:spark.mllib 包含基于RDD的原始算法API。s转载 2016-07-18 23:14:52 · 6430 阅读 · 2 评论