- 博客(3)
- 收藏
- 关注
原创 spark 分区间排序求TopN问题
scala 利用Treemap来进行排序求TOPN的方法: def sortedByTeaAndCount(itm:Iterator[((String, String), Int)], topN:Int)={ val hashMap:mutable.Map[String,Int] = new mutable.HashMap[String, Int]() implicit val ...
2019-12-27 15:29:15 318
原创 spark-shuffle
spark-shuffle 我们来先说一下shuffle,shuffle就是数据从map task到reduce task的过程。 shuffle过程包括两部分:shuffle write shuffle read,shuffle write发生在数据的准备阶段也就是map task,shuffle readf发生数据的拷贝阶段 也就是reduce task阶段, shuffle的性能好坏影响...
2019-12-14 00:34:35 207
原创 kafkaOffsetToMysql
package spark.util import kafka.common.TopicAndPartition import org.apache.spark.streaming.kafka.OffsetRange import scalikejdbc.{DB, SQL} object KafkaMysqlOffsetManager { // 获取offset def getOf...
2019-12-01 01:17:14 210
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人