spark技术
FightForProgrammer
这个作者很懒,什么都没留下…
展开
-
Spark streaming 初探
Spark streaming 初探 一、原理和运行场景Spark Streaming运行原理图如下:Spark Streaming把Kafka、HDFS、Socket等系统作为流处理的数据来源,把输入的数据流用时间切片的方式把数据分为一个个小的Batch,然后把这些小的Batch交给Spark引擎处理。官方wordcount示例代码:package o原创 2015-07-28 16:07:02 · 1029 阅读 · 0 评论 -
spark问题归纳
spark问题归纳一、说明以下遇到的spark问题都是本人在实际过程中碰到的,可能并不适合所有的情况,可做参考,有异议欢迎讨论。二、问题列表2.1 Application history not found (app-20150821200352-0022) No event logs found for application in hdfs:原创 2015-08-24 11:05:59 · 1081 阅读 · 0 评论 -
Spark初探
Spark初探一、Spark简介及特性1.1什么是SparkApache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大原创 2015-07-31 19:57:18 · 695 阅读 · 0 评论 -
Spark API
Spark RDD API使用说明(一)1、aggregate1.1 函数声明defaggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U)=> U): U1.2函数说明aggregate函数通过两个函数来操作RDD。第一个reduce函数(seqOp)对每个partition聚合,然后将初原创 2015-07-31 20:16:38 · 741 阅读 · 0 评论 -
Spark体系及RDD
Spark体系架构Spark体系架构包括如下三个主要组件:数据存储API管理框架接下来让我们详细了解一下这些组件。数据存储:Spark用HDFS文件系统存储数据。它可用于存储任何兼容于Hadoop的数据源,包括HDFS,HBase,Cassandra等。API:利用API,应用开发者可以用标准的API接口创建基于Spark的应用。原创 2015-07-31 20:42:18 · 905 阅读 · 0 评论 -
欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl原创 2015-08-01 17:25:28 · 547 阅读 · 0 评论 -
spark java.lang.OutOfMemoryError: Java heap space
spark java.lang.OutOfMemoryError: Java heap space经常遇到此问题,这个说得很详细http://stackoverflow.com/questions/21138751/spark-java-lang-outofmemoryerror-java-heap-space原创 2015-11-14 17:57:11 · 1867 阅读 · 0 评论