RDD常用算子

最新推荐文章于 2024-07-16 22:38:10 发布

码农无奇

最新推荐文章于 2024-07-16 22:38:10 发布

阅读量845

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/hpp1314520/article/details/79027549

版权

spark 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

spark集群提交任务的命令：
bin/spark-submit --master spark://node-1.XXXXX.com:7077,node-2.xxxx.com:7077
--executor-memory 512mb --total-executor-cores 4
--class com.xxxx.day1.WordCount /root/spark-1.0.jar
hdfs:// node-1.xxxx.com:9000/wc hdfs://node-1.xxx.com:9000/out

Spark一个分布式计算系统，可以替代MR编程模型

下载spark-2.1.1-hadoop2.6
java8 scala2.11.x

安装spark只要安装JDK就可以了。因为scala已经内置进去了
先解压，然后修改两个配置文件conf spark-env.sh slaves

sbin/start-all.sh
start-master.sh -> Master
start-slaves.sh -> 读取slave配置文件，然后通过ssh的方法向slaves中机器发送启动Worker命令

配置高可用的Spark集群
首先安装zk集群
在spark-env.sh中加入一个选项

spark-shell 通过一个交互式的命令行，编写spark应用程序
bin/spark-shell --master spark://node-1.xxx.com:7077,node-2.xxx.com:7077
--executor-memory 5g --total-executor-cores 50

sc.textFile("hdfs://node-1.xxx.com:9000/wc").flatMap(_.split("")).map((_,1)).reduceByKey(_+_)
.sortBy(_._2,false).saveAsTextFile("hdfs://node-1.xxx.com:9000/out")

sortBy传入的只是规则，对原本数据类型没有改变。例如sortBy（x=>x + "",true）,按照字典序来排，若原本x属于Int类型，则排序后仍然是Int类型

默认情况下，RDD的分区（partition）跟指定的核数是一样的。
可以使用:
val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9,10,11,12,13),2)
参数2来指定分区

如果从hdfs读取文件。则RDD分区数量跟文件切片数量有关。HDFS默认文件切片块大小为128M

join操作：
只有key,value类型的数据才会被join
scala>val rdd1 = sc.parallelize(List(("tom",1),("jerry",2),("kitty",3)))

scala>val rdd2 = sc.parallelize(List(("jerry",9),("tom",8),("shuke",7),("tom",2)))

scala>val rdd3 = rdd1.join(rdd2)

scala>rdd3.collect
res0:Array[(String,(Int,Int))] = Array((tom,(1,2)),(tom,(1,8)),(jerry,(2,9)))

scala>val rdd3 = rdd1.leftOuterJoin(rdd2)

scala>rdd3.collect
res1:Array[(String,(Int,Option[Int]))] = Array((kitty,(3,None)),(tom,(1,Some(8))),(tom,(1,Some(2))),(jerry,(2,Some(9))))
Some代表有值，None代表没值

CompactBuffer:是一个集合。——groupByKey后会出现。

=======例子1=================

val rdd2 = sc.parallelize(List("a","b","c","d","e","f"),2)

def func2(index:Int,iter:Iterator[(String)]):Iterator[String] = {
iter.toList.map(x => "[partId": + index + ",val:" + x + "]").iterator
}

rdd2.aggregate("")(_+_,_+_)
rdd2.aggregate("=")(_+_,_+_)

scala>rdd2.mapPartitionsWithIndex(func2).collect

scala>rdd2.aggregate("")(_+_,_+_)
res0:String = abcdef

scala>rdd2.aggregate("")(_+_,_+_)
res1:String = defabc

scala>rdd2.aggregate("|")(_+_,_+_)
res2:String = ||abc|def

========例子2====================

scala>val rdd3 = sc.parallelize(List("12","23","345","4567"),2)

scala>rdd3.aggregate("")((x,y) => math.max(x.length,y.length).toString,(x,y) => x + y)
res3:String = 24 //res3:String = 42

scala>rdd3.aggregate("x")((x,y) => math.max(x.length,y.length).toString,(x,y) => x + y)
res4:String = x24 //res4:String = x42

scala>val rdd4 = sc.parallelize(List("12","23","345",""),2)

scala>rdd4.aggregate("")((x,y) => math.min(x.length,y.length).toString,(x,y) => x + y)
res5:String = 10 //res5:String = 01 ,注意这边的toString

====================================

repartition和coalesce :都是重新分配partition,区别在于repartition有suffer。coalesce无法使得partition数量变大。

====================================
countByKey/countByValue
filterByRange
flatMapValues(_.split(""))

scala>val a = sc.parallelize(List(("a","1,2"),("b","3 4")))
scala>a.flatMapValues(_.split(" ")).collect
res0:Array[(String,String)] = Array((a,1),(a,2),(b,3),(b,4))

===================================
拉链操作 zip

scala>val rdd4 = sc.parallelize(List("dog","cat","gnu","salmon","rabbit","turkey","wolf","bear"))

scala>val rdd5 = sc.parallelize(List("1","2","1","3","1","4","2","1"))

scala>rdd4.zip(rdd5).collect
res0:Array[(String,Int)] = Array((dog,1),(cat,2),(gnu,1),(salmon,3),(rabbit,1),(turkey,4),(wolf,2),(bear,1))

===================================
集合操作

scala>val lst = List(1)
res0:List[Int] = List(1)

scala>val l2 = lst :+ 2
ls:List[Int] = List(1,2)

scala>lst ++l2
res0:List[Int] = List(1,1,2)

==================================

重要算子：combineByKey()

==================================
rdd.toDebugString 查看依赖关系
==================================
自定义分区器

计算每个学科内数量最多的前2个。

val subjects = reduced.map(_._1._1).distinct().collect()
    //定义分区器
    val subPartitioner: SubjectPartitioner = new SubjectPartitioner(subjects)
    //安装自定义分区器的规则shuffle
    val partitioned: RDD[(String, (String, Int))] = reduced.map(t => (t._1._1,(t._1._2,t._2))).partitionBy(subPartitioner)
    //每个分区中只有一个学科
    //拿出来iterator转为List计算，然后再转为iterator
    val result: RDD[(String, (String, Int))] = partitioned.mapPartitions(_.toList.sortBy(_._2._2).reverse.take(2).iterator)

//导入spark的partitioner包
  class SubjectPartitioner(subjects: Array[String]) extends Partitioner {
    //定义分区规则
    val rules = new mutable.HashMap[String,Int]()
    var i = 0
    for(sub <- subjects) {
      rules += (sub -> i)
      i += 1
    }
    //定义分区数量
    override def numPartitions: Int = subjects.length + 1
    //根据传入的key决定该条数据到哪个分区
    override def getPartition(key:Any): Int = {
      val k = key.toString
      rules.getOrElse(k,0)
    }
  }

Tips：显示类型，有两种方法，一种是Ctrl+alt+v，一种是在变量后加上“.var”，然后按制表符

当rdd从HDFS多次读取相同的数据时，可以调用 rdd.cache()来缓存数据。当内存空间不足时，不会全部存储。
当数据不使用时，使用 rdd.unpersist(true)来释放资源。

rdd.persist(StorageLevel.MEMORY_ONLY_SER)。也是用来缓存数据的方法，而且可以传入StorageLevel参数。
可以指定RDD的存储级别。MEMORY_ONLY_SER表示将数据序列化后再存到内存中。

文件以java对象直接读入内存占用的内存会比原文件大。例如37M会变成116M等等。解决方法是使用压缩算法
或者序列化。
====================
CheckPoint的使用技巧
在hdfs中设置一个目录。用来存放计算中间结果
scala>sc.setCheckpointDir("hdfs://node-1/ck0001")

scala>val rdd1 = sc.textFile("hdfs://node-1/xxx.log")

scala> rdd2 = rdd1.filter(_contains("java"))

scala>rdd2.chekpoint()

scala>rdd2.count //在对应ck0001下生成对应结果。

scala>rdd2.count //直接用ck0001下的数据。

如果一个rdd同时被cache和checkpoint，优先从cache中取数据。

RDD和RDD之间存在着依赖关系，分两种。有shuffle就是宽依赖，没有shuffle就是窄依赖。

DAG 有向无环图
触发Action时才会形成一个完整的DAG
触发Ation任务就要提交到集群执行了。
任务在提交集群之前，要进行一些准备，这些准备工作都是在Driver端
1、构建DAG
2、将DAG切分成1到多个Stage
3、任务执行分阶段进行，先提交前面的Stage,前面的Stage执行完后，后面stage才能继续执行，因为后面的Stage要依赖前面Stage计算的结果
4、一个Stage生成多个Task提交的Executor中，Stage生成的Task的数量跟该阶段RDD的分区数量一致

=========================
创建一个rules,如果在Driver端创建的一个变量，并且在传入到RDD方法的函数中，RDD方法中传入的函数是在Executor的Task中执行的，
Driver会将这个在Driver中定义的变量发送给每一个Task。
解决方案：广播变量

//将Driver端的变量广播到属于自己的所有Executor
val broadcast: Broadcast[Map[String,String]] = sc.broadcast(rules)

//在Executor端拿到广播变量中的值
val r:Map[String,String] = broadcast.value
val nation_name = r(nation_code)

==========================
//利用foreachPartition将数据写入数据库
//传入的是分区
def data2MySQL (part: Iterator[(String,Int)]):Unit = {
//创建一个jdbc连接
val conn: Connection = DriverManager.getConnection("jdbc:mysql://localhost:3306?charactorEncoding=utf-8","root","123456")
val prepareStatement = conn.prepareStatement("INSERT INTO access_log (provinc,count) values (?,?)")
//写入数据
part.foreach(data => {
prepareStatement.setString(1,data._1)
prepareStatement.setInt(2,data._2)
prepareStatement.executeUpdate()
})
prepareStatement.close()
conn.close()
}
=============================
JdbcRDD类的使用：从数据库读取数据到RDD中，然后对数据进行处理。
=============================
多比较条件排序。可以往sortBy()里传入自定义查询类

userRDD.sortBy(t => User(t._1,t._2,t._3,t._4))

自定义查询类举例：

case class User(id:Long, name:String, age:Int, fv:Int) extends Comparable[User] {
override def compareTo(that:User):Int = {
//疑问，为什么这么写
if(this.fv == that.fv) {
this.age - that.age
} else {
that.fv - this.fv
}
}

}

==============================
spark 1.6版本使用spark SQL
scala>val lines = sc.textFile("hdfs://node-1.xxxxxxx.com:9000/person.txt")
scala>case class Person(id:Long,name,String,age:Int,fv:Int)
scala>val userRDD = lines.map(_.split(",")).map(arr => Person(arr(0).toLong),arr(1),arr(2).toInt,arr(3).toInt)
scala>val pdf = userRDD.toDF()
scala>pdf.registerTempTable("t_user")
scala>val sqlContext = new org.apache.spark.sql.SQLContext(sc)
scala>val result = sqlContext.sql("SELECT * FROM t_user order by fv desc,age asc")
scala>result.show()
==============================
如何创建DataFrame对象
//方法一，RDD里面存Person对象(spark2.x之前的方法)
//对数据进行整理并映射成case class(将RDD和case class进行关联)
val personRDD:RDD[Person] = lines.map(lines => {
val fields = line.split("[,]")
val id = fields(0).toLong
val name = fields(1)
val age = fields(2).toInt
val fv = fields(3).toInt
Person(id,name,age,fv)
})

//创建SQLContext
val sqlContext = new SQLContext(sc)
//导入隐式转换
import sqlContext.implicits._1
//将RDD转换成DataFrame
val personDFS = personRDD.toDF()
//将DataFrame注册成临时表
personDF.registerTempTable("t_person")

//执行SQL，sql方法是一个Transformation,不会执行任务
val result:DataFrame = sqlContext.sql("SELECT name,age,fv FROM t_person ORDER BY fv DESC")
//触发action
result.show()
//释放资源
sc.stop()

//方法二，RDD里面存Row，同时需要有个schema与Row进行匹配(spark2.x之前的方法)
val rowRDD:RDD[Row] = lines.map(lines => {
val fields = line.split("[,]")
val id = fields(0).toLong
val name = fields(1)
val age = fields(2).toInt
val fv = fields(3).toInt
Row(id,name,age,fv)
})

//创建SQLContext
val sqlContext = new SQLContext(sc)
//导入隐式转换
import sqlContext.implicits._1

val schema = StructType(
List(
StructField("id",LongType,true),
StructField("name",StringType,true),
StructField("age",IntegerType,true),
StructField("fv",IntegerType,true)
)
)

val pdf:DataFrame = sqlContext.createDataFrame(rowRDD,schema)

//将DataFrame注册成临时表
pdf.registerTempTable("t_person")

//方法三 DataSet
val session = SparkSession
.builder()
.appName("HelloDataSet")
.master("local[*]")
.getOrCreate()

//通过sparkSession获得SparkContext
val lines:RDD[String] = session.sparkContext.textFile("hdfs://xxxxx")

val rowRDD:RDD[Row] = lines.map(lines => {
val fields = line.split("[,]")
val id = fields(0).toLong
val name = fields(1)
val age = fields(2).toInt
val fv = fields(3).toInt
Row(id,name,age,fv)
})

val schema = StructType(
List(
StructField("id",LongType,true),
StructField("name",StringType,true),
StructField("age",IntegerType,true),
StructField("fv",IntegerType,true)
)
)

val pdf:DataFrame = session.createDataFrame(rowRdd,schema)
pdf.createTempView("v_person")
val result:DataFrame = session.sql("select * from v_person where id > 1 or by fv desc")
result.show()
session.close()

========例子=========

val session = SparkSession
.builder()
.appName("HelloDataSet")
.master("local[*]")
.getOrCreate()

//通过sparkSession获得SparkContext
val lines:Dataset[String] = session.read.textFile("hdfs://xxxxx")
//导入session对象中的隐式转换
import session.implicits._

val words:Dataset[String] = lines.flatMap(_.split(""))

//DSL
//为了可以使用agg中的聚合函数，导入spark sql中的函数
import org.apache.spark.sql.functions._
val result:Dataset[row] = words.groupBy($"value" as "word").agg(count(*) as "count").sort($"count" desc)