Spark
文章平均质量分 52
香山上的麻雀1008
大数据
展开
-
spark sql 的 hints 语法【官网摘抄】
sparksql的hints语法【官网摘抄】转载 2022-07-20 11:42:08 · 1290 阅读 · 0 评论 -
spark写hudi:NoSuchMethodError: org.apache.jetty.server.session.SessionHandler.setHttpOnly(Z)V
前提Hudi version : 0.9.0Spark version : 3.1.2Hive version : 2.1.1-cdh6.3.2Hadoop version : 3.0.0-cdh6.3.2报错日志:scala> df.write.format("hudi"). | options(getQuickstartWriteConfigs). | option(PRECOMBINE_FIELD_OPT_KEY, "ts"). | opti原创 2021-09-18 17:23:25 · 1393 阅读 · 0 评论 -
spark-sql 查询报错:Invalid method name: ‘get_table_req‘
spark-sql> select * from zps_d001 limit 1;Error in query: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to fetch table zps_xxx. Invalid method name: 'get_table_req'org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.H原创 2021-09-18 16:42:38 · 3384 阅读 · 0 评论 -
自行编译spark适配CDH 6.3.2
我们用的是CDH 6.3.2,内置的spark版本是2.4.0,有两个问题:cdh6之后就取消了spark-sql客户端hudi 0.9.0 仅支持 spark 2.4.4之后的版本所以就想自己安装个spark使用。1.下载spark 3.1.2 版本源码https://spark.apache.org/downloads.html2.修改pom文件增加cloudera maven仓库<repositories> <repository> <原创 2021-09-18 15:18:23 · 3206 阅读 · 12 评论 -
spark-without-hadoop 运行时ClassNotFoundException报错解决办法
下载的spark-3.1.2-bin-without-hadoop.tgz。1.ClassNotFoundException: org.apache.log4j.spi.Filter启动刚下载的spark就报错:$ ./bin/spark-shell Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefF原创 2021-09-15 19:23:09 · 2518 阅读 · 0 评论 -
Spark Sql 解析JSON
sparksql直接用data加下标就可以读data数组中的元素转载 2021-09-14 10:21:17 · 722 阅读 · 0 评论 -
spark_user_behavior_demo
备注:此代码没有任何实际作用,仅作为初学者学习用package com.c.user_behaviorimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 用户行为数据清洗 * 1、验证数据格式是否正确,切分后长度必须为17 * 2、手机号脱敏,格式为123xxxx4567 * 3、去掉username中带有的\n,否则导致写入HDFS时会换行 */ob.原创 2021-06-20 23:27:56 · 265 阅读 · 2 评论 -
Hive / SparkSQL:如何将Unix时间戳转换为时间戳(不是字符串)?
Step 0: Preparationselect from_unixtime(1508673584) as fut;Result:-----------------------| fut || ------------------- || 2017-10-22 11:59:44 |-----------------------Step 1: Cre...原创 2020-03-10 16:32:58 · 1140 阅读 · 0 评论 -
Spark内核原理groupByKey、reduceByKey算子内部实现原理
一般来说,在执行shuffle类的算子的时候,比如groupByKey、reduceByKey、join等。其实算子内部都会隐式地创建几个RDD出来。那些隐式创建的RDD,主要是作为这个操作的一些中间数据的表达,以及作为stage划分的边界。因为有些隐式生成的RDD,可能是ShuffledRDD,dependency就是ShuffleDependency,DAGScheduler的源码,就会将...原创 2019-05-06 09:06:37 · 1360 阅读 · 0 评论 -
Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个S...原创 2019-05-05 18:01:41 · 284 阅读 · 0 评论 -
SparkStreaming之窗口函数
WindowOperations(窗口操作) Spark还提供了窗口的计算,它允许你使用一个滑动窗口应用在数据变换中。下图说明了该滑动窗口。如图所示,每个时间窗口在一个个DStream中划过,每个DSteam中的RDD进入Window中进行合并,操作时生成为窗口化DSteam的RDD。...转载 2019-04-24 14:54:14 · 1193 阅读 · 0 评论 -
DStream的有状态转化操作
1 UpdateStateByKeyUpdateStateByKey原语用于记录历史记录,有时,我们需要在 DStream 中跨批次维护状态(例如流计算中累加wordcount)。针对这种情况,updateStateByKey() 为我们提供了对一个状态变量的访问,用于键值对形式的 DStream。给定一个由(键,事件)对构成的 DStream,并传递一个指定如何根据新的事件 更新每个键对应状态...原创 2019-03-24 15:37:58 · 1192 阅读 · 0 评论 -
Spark任务提交方式和执行流程
&amp;amp;lt;2019年3月&amp;amp;gt; 日一二三四五六242526272812345678910111213141516171819202122232425262728293031123456原创 2019-03-13 18:04:38 · 490 阅读 · 0 评论 -
spark task、job、partition之间的关系 宽窄依赖 spark任务调度
1.task、job、partition之间的关系1.1一个task处理一个partition的数据1.2partition的数量是根据一次任务需要处理的hdfs上的block的数量决定的1.3一个action类算子对应一个job1.4一个job处理一个或多个partition的数据,所以一个j...原创 2019-03-13 13:07:27 · 523 阅读 · 0 评论 -
Spark的RDD工作机制原理以及实例详解
RDD工作机制实例详解 RDD工作机制RDD指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计...转载 2019-03-09 19:14:48 · 1586 阅读 · 0 评论 -
SparkCore总结大全
文章目录什么是RDD1.RDD属性:2.RDD特点:2.1 弹性2.2 分区2.3 只读2.4 依赖2.5 缓存2.6 CheckPoint3.RDD 编程3.1 RDD的创建3.2 RDD的转换什么是RDDRDD:弹性分布式数据集,Spark中最基本的数据抽象,弹性的,不可变,可分区,里面的元素可并行计算的集合。1.RDD属性:* Internally, each RDD is char...原创 2019-03-10 11:46:21 · 586 阅读 · 0 评论 -
Spark 创建RDD、DataFrame各种情况的默认分区数
前言熟悉Spark的分区对于Spark性能调优很重要,本文总结Spark通过各种函数创建RDD、DataFrame时默认的分区数,其中主要和sc.defaultParallelism、sc.defaultMinPartitions以及HDFS文件的Block数量有关,还有很坑的某些情况的默认分区数为1。如果分区数少,那么并行执行的task就少,特别情况下,分区数为1,即使你分配的Execut...转载 2019-03-11 16:46:17 · 527 阅读 · 0 评论 -
Spark之RDD的数据结构模型
前言:自Google发表三大论文GFS、MapReduce、BigTable以来,衍生出的开源框架越来越多,其中Hadoop更是以高可用、高扩展、高容错等特性形成了开源工业界事实标准。Hadoop是一个可以搭建在廉价PC上的分布式集群生态体系,用户可以在不清楚底层运行细节的情况下,开发出自己的分布式应用。但是Hadoop MapReduce由于其设计...原创 2019-03-11 17:25:01 · 1404 阅读 · 0 评论 -
Spark之HBaseRDD API操作
import org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.{CellUtil, HBaseConfiguration}import org.apache.hadoop.hbase.client.{Put, Result}import org.apache.hadoop.hbase.io.Immutabl...原创 2019-03-17 09:43:50 · 1077 阅读 · 0 评论 -
Spark学习入门初识
Spark学习入门初识 QQ:564740439目录一、官网介绍1、什么是Spark二、Spark的四大特性1、高效性2、易用性3、通用性4、兼容性三、Spark的组成四、应用场景一、官网介绍1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新...原创 2019-03-08 12:38:46 · 396 阅读 · 0 评论 -
Spark Streaming详解以及自定义数据源详解
1.Spark Streaming是什么Spark Streaming用于流式数据的处理,SparkStreaming支持的数据源很多,例如Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等,数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。和Spark基于RDD的概念...原创 2019-03-17 13:31:50 · 2912 阅读 · 0 评论 -
SparkStreaming与Kafka的整合(基础)
Kafka作为SparkStreaming的数据源1、用法以及说明在工作中需要引入Maven工件以及Spark-streaming-Kafka-0-8_2.11来使用,包内提供的 KafkaUtils对象可以在StreamingContext和JavaStreamingContext中以你的Kafka消息创建出 DStream。两个核心类,KafkaUtils以及KafkaCluster2...原创 2019-03-17 15:14:31 · 472 阅读 · 0 评论 -
Spark Core的Driver上的Task的生成、分配、调度
1. 什么是Task?在前面的章节里描述过几个角色,Driver(Client),Master,Worker(Executor),Driver会提交Application到Master进行Worker上的Executor上的调度,显然这些都不是Task.Spark上的几个关系可以这样理解:Application: Application是Driver在构建SparkContent的上下文的时候创建...转载 2019-03-12 19:17:36 · 525 阅读 · 0 评论 -
Spark2.11 任务划分以及执行流程
1、spark Application中可以由不同的action触发job,也就是说一个Application里可以有很多的job,每个job是由一个或者多个stage构成的,后面的stage依赖前面的stage,只有前面依赖的stage计算完成后面的stage才会计算;2、stage划分的就是根据宽依...原创 2019-03-13 12:26:52 · 462 阅读 · 0 评论 -
Spark从文件中创建RDD的分区机制源码解析
一、从磁盘读文件并创建RDDsc.textFile(path)一、从SparkContext.scala中找到该方法def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStopped() hadoopFile...原创 2019-03-09 18:37:05 · 629 阅读 · 0 评论