spark
黑肚皮的窝
这个作者很懒,什么都没留下…
展开
-
Spark SQL深度理解
作者 张包峰 Catalyst Catalyst是与Spark解耦的一个独立库,是一个impl-free的执行计划的生成和优化框架。 目前与Spark Core还是耦合的,对此user邮件组里有人对此提出疑问,见mail。 以下是Catalyst较早时候的架构图,展示的是代码结构和处理流程。 Catalyst定位 其他系统如果想基于Spark做一些类sq转载 2015-02-25 10:33:43 · 924 阅读 · 0 评论 -
Spark 1.2.1 发布,开源集群计算系统
Spark 1.2.1 发布,此版本是个维护版本,包括 69 位贡献者,修复了一些 Spark 的 bug,包括核心 API,Streaming,PySpark,SQL,GraphX 和 MLlib 方面的。更多改进内容请看发行说明,此版本现已提供 下载。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载转载 2015-02-25 10:38:06 · 828 阅读 · 0 评论 -
Spark Streaming容错的改进和零数据丢失
作者:Tathagata Das 译者:彭根禄 本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失。 以下为原文: 实时流处理系统必须要转载 2015-03-06 10:07:20 · 4955 阅读 · 0 评论 -
理解Spark的核心RDD
InfoQ - 促进软件开发领域知识与创新的传播 登录 En | 中文 | 日本 | Fr | Br 482,381 二月 独立访问用户 语言 & 开发 Java .Net 云计算 移动 HTML 5 JavaScript Ruby DSLs Pyt转载 2015-03-31 17:51:45 · 3540 阅读 · 0 评论 -
Apache Spark发布1.3版本,引入Data Frames、改进Spark SQL和MLlib
Apache Spark项目发布了1.3版本。主要改进是增加了DataFrames API,更成熟的Spark SQL以及一些添加到机器学习库MLlib的新方法。此外,新版本可以更好地将Spark Streaming与Apache Kafka整合。 DataFrames API是新版本最主要的新增功能。采用R语言中的同名数据结构建模,目的是为列表数据提供更好的支持。DataFrame包含一张转载 2015-03-31 17:49:04 · 2448 阅读 · 0 评论 -
Lambda表达式让Spark编程更容易
近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8转载 2015-03-31 17:54:18 · 5574 阅读 · 0 评论