spark
黑肚皮的窝
这个作者很懒,什么都没留下…
展开
-
Spark SQL深度理解
作者 张包峰CatalystCatalyst是与Spark解耦的一个独立库,是一个impl-free的执行计划的生成和优化框架。目前与Spark Core还是耦合的,对此user邮件组里有人对此提出疑问,见mail。以下是Catalyst较早时候的架构图,展示的是代码结构和处理流程。Catalyst定位其他系统如果想基于Spark做一些类sq转载 2015-02-25 10:33:43 · 923 阅读 · 0 评论 -
Spark 1.2.1 发布,开源集群计算系统
Spark 1.2.1 发布,此版本是个维护版本,包括 69 位贡献者,修复了一些 Spark 的 bug,包括核心 API,Streaming,PySpark,SQL,GraphX 和 MLlib 方面的。更多改进内容请看发行说明,此版本现已提供 下载。Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载转载 2015-02-25 10:38:06 · 828 阅读 · 0 评论 -
Spark Streaming容错的改进和零数据丢失
作者:Tathagata Das 译者:彭根禄本文来自Spark Streaming项目带头人 Tathagata Das的博客文章,他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失。以下为原文:实时流处理系统必须要转载 2015-03-06 10:07:20 · 4955 阅读 · 0 评论 -
理解Spark的核心RDD
InfoQ - 促进软件开发领域知识与创新的传播登录En |中文 |日本 |Fr |Br482,381 二月 独立访问用户语言 & 开发Java.Net云计算移动HTML 5JavaScriptRubyDSLsPyt转载 2015-03-31 17:51:45 · 3540 阅读 · 0 评论 -
Apache Spark发布1.3版本,引入Data Frames、改进Spark SQL和MLlib
Apache Spark项目发布了1.3版本。主要改进是增加了DataFrames API,更成熟的Spark SQL以及一些添加到机器学习库MLlib的新方法。此外,新版本可以更好地将Spark Streaming与Apache Kafka整合。DataFrames API是新版本最主要的新增功能。采用R语言中的同名数据结构建模,目的是为列表数据提供更好的支持。DataFrame包含一张转载 2015-03-31 17:49:04 · 2447 阅读 · 0 评论 -
Lambda表达式让Spark编程更容易
近日,Databricks官方网站发表了一篇博文,用示例说明了lambda表达式如何让Spark编程更容易。文章开头即指出,Spark的主要目标之一是使编写大数据应用程序更容易。Spark的Scala和Python接口一直很简洁,但由于缺少函数表达式,Java API有些冗长。因此,随着Java 8增加了lambda表达式,他们更新了Spark的API。Spark 1.0将提供Java 8转载 2015-03-31 17:54:18 · 5574 阅读 · 0 评论