Dale_w_code-CSDN博客

原创 SparkSQL实现WC

import org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Row, SparkSession}import org.apache.spark.sql.types.{StringType, StructField, StructType}object SparkSqlWC { def main(args:...

2019-01-18 17:11:37 221

如何进行缓存计算RDD之前，先去判断Partition是否需要被缓存，如果需要被缓存，进行Partition计算，然后缓存到内存，可以缓存到memory，如果写到hdfs（外部存储系统），就需要检查checkpoint。调用RDD.cache()后，RDD变成persistRDD，存储级别为MEMORY_ONLY（内存级别），persistRDD告知Driver自己需要被persist，此时调用...

2019-01-07 20:37:22 172

转载 Accumulator

Accumulator比如需要对Driver端的某个变量做累加操作，累加说的就是，数值相加或字符串的拼接，直接使用foreach是实现不了的，因为该算子无法把Executor累加的结果聚合到Driver端，可以使用Accumulator来实现累加的操作注意：Accumulator只能实现累加，而且只能为Driver端的变量做累加Executor无法读取累加的值，只能Driver端读取...

2019-01-07 11:34:32 510

翻译 Spark中stage的切分以及RDD缓存

RDD的依赖关系描述父RDD和子RDD之间分区的关系窄依赖每一个父RDD的分区最对被子RDD的一个分区使用，一对一宽依赖一个父RDD的分区会被子RDD的多个分区使用，一对多join有两种情况如果在join之前先进行groupByKey操作，join的过程就不会发生shuffle否则就会发生shuffleLineageRDD只支持粗粒度的转换，用来恢复丢失的数据DAG的生成D...

2019-01-04 19:39:40 354

原创 Spark算子之间的区别

map和mapPartitions的区别map用于处理RDD的每个元素，mapPartitions是用于处理RDD的每个分区map和foreach的区别map属于transformation算子，foreach属于action算子map有返回值，foreach没有返回值map有返回值，foreach没有返回值map常用于将某个RDD做元素的处理，foreach常用于作为结果的输出到其他...

2019-01-04 17:58:42 612

原创 1-3

reduceByKey,aggregateByKey,combineByKey底层调用的都是combineByKeyWithClassTagaggregate算子def aggregate[U: Cla ssTag](zeroValue: U)(seqOp: (U, T) =&amp;amp;gt; U, combOp: (U, U) =&amp;amp;gt; U): U={}zeroValue:初始值seqOp:局...

2019-01-03 21:34:50 157 1

翻译 WebSocket

只有tomcat7即其之后的版本支持websocketSSL(Secure Socket Layer 安全套接层) 和传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS与SSL在传输层对网络连接进行加密org.apache.tomcat.websocket.BLOCKING_SEND_TIMEOUT 设置该属性更改阻塞...

2019-01-03 10:16:32 1107 1

原创 HIVE UDF(user-defined function)

HIVE UDF(user-defined function)两种方式第一种继承UDF(org.apache.hadoop.hive.ql.exec.UDF),重写evalute方法，可以重载(ps:重载与返回值类型无关，不明白，自行百度)，evalute方法接收来自hive的一行记录(可以包含多个参数)，进行处理，并返回结果(可以返回void)。第二种继承抽象类Generic(org.a...

2018-11-12 20:53:46 283

qq_37240582的博客