Spark-水库抽样-根据抽样率确定每个分区的样本大小

最新推荐文章于 2023-12-11 09:36:51 发布

weixin_34337381

最新推荐文章于 2023-12-11 09:36:51 发布

阅读量285

点赞数

文章标签：大数据

原文链接：http://www.cnblogs.com/moonlightml/p/10220973.html

版权

 /*
  * 输入：采样率，待采样的RDD
  * 输出：每个分区的样本大小（记录数）
  * 由采样率确定，每个分区的样本大小
   */
def findNumPerPartition[T: ClassTag, U: ClassTag](sampleRate : Double, rddNum : RDD[T]): Int ={
  //RDD总记录数
  val numRdd=rddNum.count()
  //RDD的分区数
  val numPartition=rddNum.partitions.size
  //样本总记录数
  val numSample=rddNum.count()*sampleRate
  //每个分区准备抽样的样本记录数
  val numSamplePerPartition=(numSample/numPartition).toInt
  (numSamplePerPartition)
}