Spark
开发哪些事儿
不唯上,不唯书,只为实
展开
-
Spark 概述
Spark 是什么?● 官方文档解释:Apache Spark™is a fast and general engine for large-scale data processing.通俗的理解:Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark 部署在大量廉价硬件之上,形成集...原创 2019-07-05 11:54:01 · 185 阅读 · 0 评论 -
Spark生态系统
Spark自有生态圈(以Spark为核心)● 1.3.0 及后续版本中,SchemaRDD 已经改名为DataFrame,DataFrame的概念来自于R语言● 1.4才有Spark R,他是一个R语言包,它提供了轻量级的方式使得可以在R语言中使用Spark● 1.6引入Dataset接口更大的生态圈如何对待● 无需纠结谁替代谁(相互补充)● 以某一个组件...原创 2019-07-05 12:08:08 · 1305 阅读 · 0 评论 -
第一个Spark程序
下面是Spark 安装成功的界面运行Spark Wordcount程序原创 2019-07-05 13:59:21 · 172 阅读 · 0 评论 -
SparkStreaming性能调优
合理的并行度减少批处理所消耗时间的常见方式还有提高并行度。有以下三种方式可以提高并行度:1.增加接收器数目有时如果记录太多导致单台机器来不及读入并分发的话,接收器会成为系统瓶颈。这时你就需要通过创建多个输入DStream(这样会创建多个接收器)来增加接收器数目,然后使用union 来把数据合并为一个数据源。2.将收到的数据显式地重新分区如果接收器数目无法再增加,你可以通过...原创 2019-07-06 11:19:55 · 306 阅读 · 0 评论