在pyspark中调用scala代码

最新推荐文章于 2024-07-23 10:32:05 发布

lo_single

最新推荐文章于 2024-07-23 10:32:05 发布

阅读量2.8k

点赞数

分类专栏： Spark 文章标签： spark python scala

本文链接：https://blog.csdn.net/lo_single/article/details/77829021

版权

本文介绍了如何在PySpark环境下，针对Spark 1.5.1版本，调用Scala实现的LDA模型的describeTopics方法来解决Python接口未开放的问题。通过分析源代码，发现LdaModelWrapper类在1.6版本中解决了转换问题。文章详细阐述了打包Scala代码为jar文件的过程，并展示了如何在Python中通过SparkContext._jvm调用Scala方法。

摘要由CSDN通过智能技术生成

在pyspark中调用scala代码

情境说明

问题

我们这边是要使用Spark去并行一个自然语言处理的算法，其中使用到了LDA主题模型。由于使用的是天河二号，Spark版本是1.5.1，pyspark同样，所以获取主题时还不能使用describeTopics(在spark1.6中才开放对python的接口)，只能使用topicsMatrix的方法。
本来凑合用topicsMatrix也行，但我们发现，这一个用来获取主题模型的函数，居然比Lda的训练还要慢！无论在我们自己的集群还是在天河二号的分区上，都是这一个情况。观察topicsMatrix的源代码，好像也没有什么复杂操作，只是把数据汇总collect而已：

@Since("1.3.0")
override lazy val topicsMatrix: Matrix = {
  // Collect row-major topics
  val termTopicCounts: Array[(Int, TopicCounts)] =
    graph.vertices.filter(_._1 < 0).map { case (termIndex, cnts) =>
    (index2term(termIndex), cnts)}.collect()
  // Convert to Matrix
  val brzTopics = BDM.zeros[Double](vocabSize, k)
  termTopicCounts.foreach { case (term, cnts) =>
    var j = 0
    while (j < k) {
      brzTopics(term, j) = cnts(j)
      j += 1
    }
  }
  Matrices.fromBreeze(brzTopics)
}