![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 87
刘跃盛
这个作者很懒,什么都没留下…
展开
-
spark重点知识-1
RDD,DataFrame,DataSet DataSet 产生于spaek1.6 比DataFrame多了泛型的支持 DataFrame就是DataSet[row] DataSet[T]的元素经过tungsten优化,是内存的优化,可以节省空间85% 自动支持各种类型的编码器,就是强类型 基本类型 int ,long ,string row jvm对象,case class 对象 使得元素是样例类对象【student(name:string;age:int】时,将类的属性名映射成sql的表字段名原创 2021-07-12 16:40:43 · 420 阅读 · 0 评论 -
spark-streaming
概述 原生流处理 数据来一条就立即计算一条 代表框架 strom(已淘汰) ,flink 微批次处理 积攒一段时间间隔的数据,再一次对这些微批次数据做处理,间隔 0.5-5秒 sparkStreaming数据抽象 sparkStreaming 计算思想 sparkstreaming就是微批流处理思想 官方定义Spark Streaming模块: 可以轻松构建可扩展的容错流应用程序 Dstream的介绍 回顾,之前的数据抽象 sparkCore:RDD sparkSQL:原创 2021-07-11 20:41:03 · 167 阅读 · 1 评论 -
一道 spark-submit 面试题
bin/spark-submit –class com.huawei.cluster –master yarn-cluster ==–driver-cores 2 == ==–driver-memory 30G == –conf spark.shuffle.service.ennabled=true –conf spark.memory.storageFraction=0.30 –conf spark.memory.fraction=0.7 –conf spark.default.parall原创 2021-07-09 18:25:42 · 294 阅读 · 0 评论