![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark编程
envinfo2012
这个作者很懒,什么都没留下…
展开
-
Spark RDD Actions&Transformations
1,transformation是得到一个新的RDD,方式很多,比如:1.1 从Hadoop文件系统(如HDFS、Hive、HBase)输入创建 1.2 从父RDD转换得到新RDD 1.3 通过parallelize或makeRDD将单机数据创建为分布式RDD (区别: A)makeRDD函数比parallelize函数多提供了数据的位置信息。 B)两者的返回值都是ParallelColl转载 2017-03-18 14:41:58 · 297 阅读 · 0 评论 -
Spark--05 DataFrame基本操作
val conf = new SparkConf().setMaster("local").setAppName("JSONLoad") val sc = new SparkContext(conf) val sqlContext = new SQLContext(sc) val initFrame = sqlContext.read.json("E:\\...原创 2019-07-17 12:39:39 · 132 阅读 · 0 评论 -
Spark--04高级RDD编程详解
The RDD API By ExampleaggregateThe aggregate function allows the user to apply two different reduce functions to the RDD. The first reduce function is applied within each partition to reduce the d转载 2017-11-13 10:17:34 · 1019 阅读 · 0 评论 -
Spark--Project Tungsten:让Spark将硬件性能压榨到极限
摘要:对于Spark来说,通用只是其目标之一,更好的性能同样是其赖以生存的立足之本。北京时间4月28日晚,Databricks在其官方博客上发布了Tungsten项目,并简述了Spark性能提升下一阶段的RoadMap。本文编译自Databricks Blog(Project Tungsten: Bringing Spark Closer to Bare Metal),作者Reynold转载 2017-09-20 09:15:33 · 449 阅读 · 0 评论 -
Spark--Scala Actor统计多文件WordCount
import scala.actors.{Future, Actor}import scala.collection.mutableimport scala.collection.mutable.ArrayBufferimport scala.io.Source/** * Created by Administrator on 2017/7/30. */class MyTask e原创 2017-07-30 19:45:48 · 515 阅读 · 0 评论 -
Spark--03基本架构及原理
Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架,最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一,与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势:Spark提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据转载 2017-07-16 17:24:05 · 463 阅读 · 0 评论 -
Spark--02WordCount代码解析
import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkCo原创 2017-07-15 10:13:23 · 247 阅读 · 0 评论 -
Spark--01eclipse java spark环境搭建
前提:安装 eclipse4.3 EclipseJava EE IDE for Web Developers.Version: Juno Release 安装 jdk1.7相关组件准备:第一步:下载spark-1.3.0-bin-hadoop2.6.tgz到本地,并解压在本地目录 地址为:http://spark.apache.org/downloads.htm原创 2017-07-15 10:12:17 · 386 阅读 · 0 评论 -
Scala基本语法和API(1)--Array,ArrayBuffer,Map
1、lazy在Scala中,提供了lazy值的特性,也就是说,如果将一个变量声明为lazy,则只有在第一次使用该变量时,变量对应的表达式才会发生计算。这种特性对于特别耗时的计算操作特别有用,比如打开文件进行IO,进行网络IO等。import scala.io.Source._lazy val lines = fromFile("C://Users//Administrato原创 2017-05-23 14:22:45 · 2028 阅读 · 0 评论 -
Spark--06 SparkStreaming kafka消息堆积
问题:当应用由于各种其它因素需要暂停消费时,下一次再次启动后就会有大量积压消息需要进行处理,此时为了保证应用能够正常处理积压数据,需要进行相关调优。另外对于某个时刻,某个topic写入量突增时,会导致整个kafka集群进行topic分区的leader切换,而此时Streaming程序也会受到影响。所以针对以上问题我们进行了如下调优: spark.streaming.concurr...原创 2019-09-24 10:21:20 · 1145 阅读 · 0 评论