spark
微风凉
这个作者很懒,什么都没留下…
展开
-
kafka的partitions的offset值写入mysql
主类:package com.kafka.sourcesimport java.sql.{Connection, ResultSet, Statement}import java.utilimport java.langimport java.util.Propertiesimport com.Test.{MysqlSourceDB, SourceDB}import com.Utils.{DBConnManager}import com.kafka.service.KafkaConsum原创 2020-08-03 22:49:19 · 414 阅读 · 0 评论 -
spark 序列化对象时的问题-Serializable
package com.serimport java.net.InetAddressimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}// 如果sobject serTest { def main(args: Array[String]): Unit = { /...原创 2020-01-08 21:43:30 · 820 阅读 · 0 评论 -
spark 分区间排序求TopN问题
scala 利用Treemap来进行排序求TOPN的方法: def sortedByTeaAndCount(itm:Iterator[((String, String), Int)], topN:Int)={ val hashMap:mutable.Map[String,Int] = new mutable.HashMap[String, Int]() implicit val ...原创 2019-12-27 15:29:15 · 326 阅读 · 0 评论 -
spark-shuffle
spark-shuffle我们来先说一下shuffle,shuffle就是数据从map task到reduce task的过程。shuffle过程包括两部分:shuffle write shuffle read,shuffle write发生在数据的准备阶段也就是map task,shuffle readf发生数据的拷贝阶段 也就是reduce task阶段,shuffle的性能好坏影响...原创 2019-12-14 00:34:35 · 211 阅读 · 0 评论 -
kafkaOffsetToMysql
package spark.utilimport kafka.common.TopicAndPartitionimport org.apache.spark.streaming.kafka.OffsetRangeimport scalikejdbc.{DB, SQL}object KafkaMysqlOffsetManager { // 获取offset def getOf...原创 2019-12-01 01:17:14 · 215 阅读 · 0 评论 -
spark Udaf-自定义函数
/**声明用户自定义聚合函数(弱类型)继承UserDefinedAggregateFunction实现方法*/package com.scalademoimport org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.expre...原创 2019-11-28 16:30:44 · 252 阅读 · 0 评论 -
spark task not Serializable
今天用scala代码写spark程序遇到一个这样的一个问题 task not Serializable,进过查阅资料,涨知识了!自己的举例的代码:1.创建一个类class MatchString(s:String){ //过滤出包含字符串的数据 def isMatch(s: String): Boolean = { s.contains(query) } //过滤出...原创 2019-11-12 12:34:44 · 294 阅读 · 0 评论