自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 SparkSQL实现WC

import org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Row, SparkSession}import org.apache.spark.sql.types.{StringType, StructField, StructType}object SparkSqlWC { def main(args:...

2019-01-18 17:11:37 221

原创 cache,persist,checkpoint

如何进行缓存计算RDD之前,先去判断Partition是否需要被缓存,如果需要被缓存,进行Partition计算,然后缓存到内存,可以缓存到memory,如果写到hdfs(外部存储系统),就需要检查checkpoint。调用RDD.cache()后,RDD变成persistRDD,存储级别为MEMORY_ONLY(内存级别),persistRDD告知Driver自己需要被persist,此时调用...

2019-01-07 20:37:22 172

转载 Accumulator

Accumulator比如需要对Driver端的某个变量做累加操作,累加说的就是,数值相加或字符串的拼接,直接使用foreach是实现不了的,因为该算子无法把Executor累加的结果聚合到Driver端,可以使用Accumulator来实现累加的操作注意:Accumulator只能实现累加,而且只能为Driver端的变量做累加Executor无法读取累加的值,只能Driver端读取...

2019-01-07 11:34:32 510

翻译 Spark中stage的切分以及RDD缓存

RDD的依赖关系描述父RDD和子RDD之间分区的关系窄依赖每一个父RDD的分区最对被子RDD的一个分区使用,一对一宽依赖一个父RDD的分区会被子RDD的多个分区使用,一对多join有两种情况如果在join之前先进行groupByKey操作,join的过程就不会发生shuffle否则就会发生shuffleLineageRDD只支持粗粒度的转换,用来恢复丢失的数据DAG的生成D...

2019-01-04 19:39:40 354

原创 Spark算子之间的区别

map和mapPartitions的区别map用于处理RDD的每个元素,mapPartitions是用于处理RDD的每个分区map和foreach的区别map属于transformation算子,foreach属于action算子map有返回值,foreach没有返回值map有返回值,foreach没有返回值map常用于将某个RDD做元素的处理,foreach常用于作为结果的输出到其他...

2019-01-04 17:58:42 612

原创 1-3

reduceByKey,aggregateByKey,combineByKey底层调用的都是combineByKeyWithClassTagaggregate算子def aggregate[U: Cla ssTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U={}zeroValue:初始值seqOp:局...

2019-01-03 21:34:50 157 1

翻译 WebSocket

只有tomcat7即其之后的版本支持websocketSSL(Secure Socket Layer 安全套接层) 和传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS与SSL在传输层对网络连接进行加密org.apache.tomcat.websocket.BLOCKING_SEND_TIMEOUT 设置该属性更改阻塞...

2019-01-03 10:16:32 1107 1

原创 HIVE UDF(user-defined function)

HIVE UDF(user-defined function)两种方式第一种继承UDF(org.apache.hadoop.hive.ql.exec.UDF),重写evalute方法,可以重载(ps:重载与返回值类型无关,不明白,自行百度),evalute方法接收来自hive的一行记录(可以包含多个参数),进行处理,并返回结果(可以返回void)。第二种继承抽象类Generic(org.a...

2018-11-12 20:53:46 283

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除