Spark
青眼酷白龙
这个作者很懒,什么都没留下…
展开
-
SparkSQL 解析嵌套json
1 json 数据集{"pid":123456,"aid":"abcdefg","country":"MX","places":[{"place":7,"type":"open"},{"place":10,"type":"open"},{"place":13,"type":"open"}]}2 代码package dir1import org.apache.spark.sql.types.{StringType, StructType}import org.apache.spark.sql.{原创 2020-10-13 18:52:23 · 618 阅读 · 0 评论 -
Spark与Redis整合代码
1 读取Redis的接口文档:一级索引方法名 :getOneIndexWithStartTimeAndEndTime(参数一,参数二)参数介绍 :参数一(startTimeStamp):开始时间参数二(endTimeStamp):结束时间 (如结束时间想设置为定值采用:Long.MaxValue)返回值 : cid数组 例 :400014000240003二级索引方法名 : getSecondIndex(参数一,参数二) 参数介绍 :参数原创 2020-10-13 14:25:50 · 494 阅读 · 0 评论 -
spark中几种WordCount的写法
1 Spark Coreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object SparkCoreWordCount { def main(args: Array[String]): Unit = { val conf: SparkConf = new SparkConf().setMaster("local[2]") .setAppName(this.get原创 2020-10-04 10:33:42 · 1785 阅读 · 0 评论 -
spark的执行流程图解
原创 2020-09-08 13:13:38 · 163 阅读 · 0 评论 -
spark-submit
原创 2020-09-02 23:42:02 · 80 阅读 · 0 评论 -
优化后的HashShuffleManager
原创 2020-08-26 21:22:10 · 166 阅读 · 0 评论 -
spark执行流程图
原创 2020-08-26 10:35:25 · 792 阅读 · 0 评论 -
Spark yarn Client模式和Spark yarn cluster模式
原创 2020-08-26 10:32:03 · 73 阅读 · 0 评论 -
Spark自定义外部数据源API
原创 2020-08-25 14:40:42 · 139 阅读 · 0 评论 -
spark内存管理
原创 2020-08-23 21:45:52 · 97 阅读 · 0 评论 -
未经优化的HashShuffleManager
原创 2020-08-23 20:29:11 · 143 阅读 · 0 评论 -
Structured Streaming checkpoint详解
原创 2020-08-20 20:59:56 · 1144 阅读 · 0 评论 -
Spark中piovt的使用案例解析
Spark中piovt的使用案例解析1 PiovtTestimport org.apache.spark.sql.{Dataset, SparkSession}object PiovtTest { def main(args: Array[String]): Unit = { val spark: SparkSession = SparkSession .builder() .appName(this.getClass.getSimpleName.stripSu原创 2020-08-20 17:30:21 · 601 阅读 · 0 评论 -
Spark中combineByKey的使用
原创 2020-08-11 20:49:35 · 169 阅读 · 0 评论 -
SparkSubmit具体的提交流程
原创 2020-08-11 14:46:18 · 184 阅读 · 0 评论 -
Spark面试题
map和mapPartition的区别主要区别:map是对rdd中的每一个元素进行操作;mapPartitions则是对rdd中的每个分区的迭代器进行操作MapPartitions的优点:如果是普通的map,比如一个partition中有1万条数据。ok,那么你的function要执行和计算1万次。使用MapPartitions操作之后,一个task仅仅会执行一次function,function一次接收所有的partition数据。只要执行一次就可以了,性能比较高。如果在map过程中需要频繁创建原创 2020-08-06 21:43:38 · 164 阅读 · 0 评论 -
spark总结(未完待续)
原创 2020-07-07 19:42:06 · 101 阅读 · 0 评论