Scala-Spark digamma stackoverflow问题

Scala-Spark digamma stackoverflow问题

这两天在用spark做点击率的贝叶斯平滑,参考雅虎的论文进行了一番尝试。

先上代码:

# click_count, show_count # this method takes time
def do_smooth(data_list):
    import scipy.special as sp
    a, b, i = 1.0, 1.0, 0
    da, db = a, b
    while i < 1000 and (da > 1.0E-10 or db > 1.0E-10):
        x1, y1, x2 = 0.0, 0.0, 0.0
        for lineList in data_list:
            x1 += sp.digamma((lineList[0]) + a) - sp.digamma(a)
            y1 += sp.digamma((lineList[1]) + a + b) - sp.digamma(a + b)
            x2 += sp.digamma((lineList[1]) - (lineList[0]) + b) - sp.digamma(b)
        na, nb = a, b
        a *= (x1 / y1)
        b *= (x2 / y1)
        da, db = abs(a - na), abs(b - nb)
        i += 1
    print i, a, b
    return a, b

这是我之前用的python代码,改成scala也相当容易,digamma函数非常耗时,而且还要迭代1000次。最要命的是digamma在scala里面默认的实现会出现栈溢出!!!

var a, b, da, db: Double = 1.0
var index = 0
while (index < 1000 && (da > 1.0E-9 || db > 1.0E-9)) {
    var x1,x2,y1 = 0.0
    traindata.foreach(p => {
        x1 += MBlas.digamma(p(2) + a) - MBlas.digamma(a)
        y1 += MBlas.digamma(p(1) + a + b) - MBlas.digamma(a + b)
        x2 += MBlas.digamma(p(1) - p(2) + b) - MBlas.digamma(b)
        val na = a
        val nb = b
        a *= (x1 / y1)
        b *= (x2 / y1)
        da = Math.abs(a - na)
        db = Math.abs(b - nb)
    })
}

digamma 函数是个递归函数,问题就处在递归上了。

   public static double digamma(double x) {
        if (x > 0 && x <= S_LIMIT) {
            return -GAMMA - 1 / x;
        }
        if (x >= C_LIMIT) {
            double inv = 1 / (x * x);
            return FastMath.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252));
        }
        return digamma(x + 1) - 1 / x;
    }

既然知道问题所在,是不是就可以重写递归为非递归呢?在Stack Overflow上找到了一个答案

  val GAMMA = 0.577215664901532860606512090082
        val GAMMA_MINX = 1.e-12
        val DIGAMMA_MINNEGX = -1250
        val C_LIMIT = 49
        val S_LIMIT = 1e-5
        var value = 0.0
        var x = input
        while (true) {
            if (x >= 0 && x < GAMMA_MINX) x = GAMMA_MINX
            if (x < DIGAMMA_MINNEGX) {
                x = DIGAMMA_MINNEGX + GAMMA_MINX
            } else {
                if (x > 0 && x <= S_LIMIT) return value + -GAMMA - 1 / x
                if (x >= C_LIMIT) {
                    val inv = 1 / (x * x)
                    return value + Math.log(x) - 0.5 / x - inv * ((1.0 / 12) + inv * (1.0 / 120 - inv / 252))
                }
                value = value - 1.0 / x
                x += 1
            }
        }

经测试,没看出什么问题,可以用了。
不过,上面的代码并没有解决慢的问题,当需要计算CTR的对象比较多时(几百万),仍然比较耗时。所以我决定用两个替代方法:

  1. 抽样,抽取能在可接受时间内出结果的样本数,得到α和β;
  2. 直接使用平均值作为α和β

参考:
1. 雅虎专家的论文,如上
2. Stack Overflow 网友代码,如上

### 回答1: 以下是一个简单的Scala-Spark SQL查询和输出的示例: ```scala import org.apache.spark.sql.SparkSession object SparkSQLDemo { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() .appName("SparkSQLDemo") .master("local[*]") .getOrCreate() // 读取CSV文件并创建DataFrame val df = spark.read .option("header", "true") .option("inferSchema", "true") .csv("path/to/csv/file") // 创建临时表 df.createOrReplaceTempView("people") // 执行SQL查询 val result = spark.sql("SELECT * FROM people WHERE age > 30") // 输出结果 result.show() spark.stop() } } ``` 这个示例演示了如何使用SparkSession对象读取CSV文件并创建DataFrame,然后将DataFrame注册为一个临时表,最后执行SQL查询并输出结果。在这个示例中,我们查询了所有年龄大于30岁的人的信息。 ### 回答2: Spark SQL是Spark中一个用于分布式数据处理的模块,它提供了一个用于结构化数据处理的SQL查询引擎。Scala是一种在JVM上运行的编程语言,它被广泛用于Spark中的开发。本文将介绍Scala-Spark SQL的查询和输出demo。 首先,我们需要导入Spark SQL的包: ```scala import org.apache.spark.sql.SparkSession ``` 然后,我们需要创建一个SparkSession对象: ```scala val spark = SparkSession.builder.appName("ScalaSparkSQLDemo").getOrCreate() ``` 接下来,我们可以通过以下代码从csv文件中读取数据并创建一个DataFrame对象: ```scala val df = spark.read.option("header", "true").option("delimiter", ",").csv("path/to/file.csv") ``` 上述代码中,“header”选项表示csv文件的第一行被视为列名,而“delimiter”选项表示csv文件中使用的字段分隔符。在这里,我们将csv文件的路径指定为“file.csv”。 接下来,我们可以执行SQL查询: ```scala df.createOrReplaceTempView("people") val result = spark.sql("SELECT * FROM people WHERE age > 21") ``` 上述代码中,“createOrReplaceTempView”方法将DataFrame注册为可临时使用的表,表名为“people”。然后我们执行SQL查询语句:“SELECT * FROM people WHERE age > 21”,筛选出age大于21的所有行。 最后,我们可以将结果输出到控制台: ```scala result.show() ``` 上述代码中,“show”方法将结果以表格形式输出到控制台。 整个Scala-Spark SQL查询输出demo的代码如下: ```scala import org.apache.spark.sql.SparkSession object ScalaSparkSQLDemo { def main(args: Array[String]): Unit = { val spark = SparkSession.builder.appName("ScalaSparkSQLDemo").getOrCreate() val df = spark.read.option("header", "true").option("delimiter", ",").csv("path/to/file.csv") df.createOrReplaceTempView("people") val result = spark.sql("SELECT * FROM people WHERE age > 21") result.show() spark.stop() } } ``` 注意,我们还需在代码结尾使用“spark.stop()”方法,以关闭SparkSession对象,释放资源。 以上是Scala-Spark SQL查询输出demo的详细说明,开发者们可以根据需求进行修改和应用。 ### 回答3: Scala-Spark是大数据处理和分析领域的重要框架之一,其提供了强大的数据分析和处理工具,其中包括Spark SQL。Spark SQL是将结构化数据和非结构化数据整合到一起进行分析和处理的一个模块,基于Spark Core数据处理引擎,并支持使用Scala、Java和Python等语言进行编程。 下面我们来看一个Scala-Spark SQL的查询和输出Demo: 首先需要导入相应的包,因为使用的是Spark 2.4版本,所以需要导入spark-sql的jar包: ```scala import org.apache.spark.sql.SparkSession ``` 然后创建一个SparkSession对象: ```scala val spark = SparkSession.builder().appName("Spark SQL Demo").master("local[*]").getOrCreate() ``` 接下来读入数据,构建DataFrame,比如我们在本地有一个people.csv文件,有两列数据:name和age,我们可以使用如下代码读取该文件构建DataFrame: ```scala val file = "people.csv" var peopleDF = spark.read.format("csv").option("header","true").load(file) ``` 然后我们对DataFrame数据进行一些操作,例如筛选出年龄大于30的人: ```scala var resultDF = peopleDF.filter("age > 30") ``` 接下来我们可以将结果输出到控制台,使用show()方法: ```scala resultDF.show() ``` 最后记得关闭SparkSession对象: ```scala spark.stop() ``` 以上就是Scala-Spark SQL查询与输出的基本Demo,这些代码可以帮助你了解在Scala中如何使用Spark SQL来进行数据查询和输出。当然,Spark SQL还有很多强大的功能和语法,需要大家自己去探索和学习。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值