![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
banana`
这个作者很懒,什么都没留下…
展开
-
记录下windows本地开发运行Spark项目环境问题
最近在使用Spark结构化流开发实时流处理项目,原本之前可以在本地IDEA运行的项目突然报各种hadoop相关的错误: #错误描述,java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.createFileWithMode0(Ljava/lang/String; JJJI)Ljava/io/FileDescriptor可以看出是Windows本地环境问题导致IO异常,网上给出的解决方式是在系统文..原创 2021-09-02 11:55:36 · 304 阅读 · 0 评论 -
Spark DataFrame 写入MySQL性能调优
最近在做公司运营报表时需要将百万数据一次性写入MySQL简单指定必须参数url,user,password,driver(也为必须参数,如果不指定会报错),dbtable后,发现写入数据时非常的慢,甚至只写入一部分后直接报错,为解决此问题,在网上搜索可以做以下调优spark jdbc参数介绍:在spark官网spark sql jdbc部分提供了以下参数: url:要连接的JDBC...原创 2019-07-29 14:18:39 · 85953 阅读 · 4 评论 -
Spark Core 之监控和调优
Spark 程序监控当我们通过Spark-shell启动一个Spark应用程序时,可以通过对应的端口查看该应用程序的UI界面信息,但是当我们Stop掉或者使用Spark-submit提交应用程序之后,我们无法再通过UI界面查看到对于的程序信息,那么之前的一些应用程序中间的运行状况就无法查看和被记录,不过好在Spark为我们提供了一个Spark history server ,这方便我们可以在...原创 2018-07-14 13:08:19 · 449 阅读 · 0 评论 -
Spark Core 的核心使用
Spark 程序核心概念 * 首先,官网的这张图很好的描述了一个Spark 应用程序的结构,一个Spark应用程序由一个Driver端和多个Executor组成,多个task 以多线程的形式运行在Executor中。 * Driver端: Driver负责运行程序的main()方法,负责将代码发送到各个Executor去执行,然后取回结果,Driver端也是以Executor方式运行,可以...原创 2018-07-14 11:19:51 · 1264 阅读 · 0 评论 -
Spark core 核心知识之再聊RDD
前言本文主要是记录在学习spark core 中的一些核心概念以及用法,对spark core 中的东西做出自己的总结。文章中可能会有一些错误,但鉴于是作者结合官网做出总结,仅做参考,涉及到不对以及不清楚的地方还请谅解。spark 的学习,我们可以参照官网spark 官网,spark的官网可以说是写的比较好的了,涉及到的知识还是非常全面的,通过官网,我们可以进行简单的案例使用,以及在概念上...原创 2018-07-13 22:16:01 · 277 阅读 · 0 评论 -
SparkSQL 基本使用
简介SparkSQL可以直接使用SQL的方式处理结构化数据,也可以通过DataFrame(spark1.3)和Dataset(spark1.6) API 使用编程的方式处理结构化数据,本文只介绍以DataFrame API的方式编程,至于DataFrame 和Daraset有何不同,我们暂时将二者先理解为一个概念,DataFrame API支持多种编程语言,如Java,Scala,Pytho...原创 2018-06-08 17:14:10 · 1244 阅读 · 0 评论 -
Spark SQL介绍
简介SparkSQL is not about SQL,Spark SQL is about more than SQL:这俩说明了SparkSQL不仅仅只是一个SQL的功能,它的功能远超于它的字面意思。官方介绍:Spark SQL是Spark处理数据的一个模块,跟基本的Spark RDD的API不同,Spark SQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。其本质...原创 2018-06-07 11:59:31 · 1323 阅读 · 0 评论 -
Spark常用三种运行模式
概述Spark 的运行模式有 Local(也称单节点模式),Standalone(集群模式),Spark on Yarn(运行在Yarn上),Mesos以及K8s等常用模式,本文介绍前三种模式。Spark-shell 参数Spark-shell 是以一种交互式命令行方式将Spark应用程序跑在指定模式上,也可以通过Spark-submit提交指定运用程序,Spark-shel...原创 2018-05-23 22:37:11 · 23762 阅读 · 2 评论 -
使用Spark的优势
传统MapReduce编程局限性一个新的框架的诞生,必然是先前的框架无法满足现有的需求和提高生产力,那么相对于spark,传统的mapreduce 编程有哪些局限性呢:1.繁杂:MapReduce 中,只提供了俩种算子:Map和Reduce,那么基于这俩种算子面对不同的需求场景必然会使编程变得很繁杂。2.效率低下:1)进程级别低; 2) 基于磁盘,在迭代计算时,数据和网络的频繁IO; 3...原创 2018-05-13 20:26:39 · 1626 阅读 · 0 评论 -
RDD
RDD概念RDD源码中的描述: A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable,partitioned collection of elements that can be operated on in parallel. This class c...原创 2018-05-18 22:43:46 · 752 阅读 · 0 评论 -
Spark 源码编译
选择Spark源码官网:spark.apache.org目的:从官网下载源码进行编译比下载的安装包要完整,并且可以定向编译出匹配自己Hadoop及其他组件的Spark版本环境准备JDK: Spark 2.2.0及以上版本只支持JDK1.8Maven: maven3.3.9; 设置maven环境变量时,需设置maven内存: export MAVEN_OPTS=”-Xmx...原创 2018-03-08 20:18:36 · 290 阅读 · 0 评论