[瞎玩儿系列] 使用SQL实现Logistic回归

最新推荐文章于 2020-06-02 14:15:50 发布

weixin_30619101

最新推荐文章于 2020-06-02 14:15:50 发布

阅读量112

点赞数

文章标签： matlab 人工智能大数据

原文链接：http://www.cnblogs.com/TsingJyujing/p/6814047.html

版权

本来想发在知乎专栏的，但是文章死活提交不了，我也是醉了，于是乎我就干脆提交到CNBLOGS了。

前言

前段时间我们介绍了Logistic的数学原理和C语言实现，而我呢？其实还是习惯使用Matlab进行计算的，而且是不带C的Matlab。（主要我们都用Windows）
那为什么要用SQL实现呢?（准确的说是PL/SQL）
因为我发现数据一次性加载进内存里面太大了，直接在SELECT的时候OutOfMemory了（其实数据是勉强能装进内存的，只是SELECT的时候产生的对象太多）
更主要的原因是因为我的电脑另有它用，留下的内存也不多了。
卧槽，为什么不用服务器算呢？
最近在重装系统，等我的小服务器安装好了，次回我会可能带来使用Hadoop/Spark的Logistic回归。
关于为什么我对Logistic回归这么着迷，并不是不会其它的模型，第一它简单，第二可解释性好，易于并行或者处理数据流。
为什么使用SQL呢？性能并不是其优势，反而是其软肋，但是可以把压力转嫁到服务器上，对于我残破不堪的工作电脑也是一个解脱，其次，对于特别大量的数据要做到随机梯度下降防止陷入局部极小，用SQL也算是一个解决方案。

诚然这个方案是不合适的，但是那又怎么样，我和SQL只是玩玩而已。

最近本人在找工作，希望找一个能让我做机器学习的岗位，我希望这家公司是一个脚踏实地的公司，有可持续的盈利模式，不会随便的喊出深度学习、人工智能和大数据之类的词汇，能从业务的角度来选择技术，那么我不会让你们失望。

准备数据

首先你有一张表，这张表列数不多，但是行数挺多的，其中一列是y，其余的是x，当然还可以有ID之类的一些其他信息。
我们这次的表结构是这样的：

CREATE TABLE public.jfeatures_cntf
(
    ---y
    cbuy integer,
    ---X
    cview integer,
    cadd integer,
    cdel integer,
    cstar integer,
    cclick integer
)

计算

首先你需要新建一个函数，该函数能做到从数据中随机取N行数据给你，因为数据量比较大，我们可能只有在Fine Tune的时候才会使用全部数据，平时的计算主要还是使用Radom Batch Gradient Descend/Ascend。
而Logistic的核心是：求偏导，我们也不需要什么都让SQL做，只要让SQL完成数据量最大的计算就行了。

随机取数据的函数

那我们首先构建一个PLSQL的函数：

CREATE OR REPLACE FUNCTION public.get_rand_x_record(x integer)
  RETURNS SETOF jfeatures_cntf AS
$BODY$
DECLARE
    N INTEGER;
BEGIN
    --- N<-Length-x
    SELECT count(*)-x INTO N FROM public.jfeatures_cntf;
    --- Random select
    RETURN QUERY SELECT * FROM public.jfeatures_cntf
        OFFSET floor(random()*N) LIMIT x;
END;
$BODY$
  LANGUAGE plpgsql VOLATILE

这个函数可以每次从数据库中取出N条数据，比ORDER BY random()快不少。
由于在运算的时候我们也不会增删记录，所以可以预先获取数据大小N，随后使用这个函数：

CREATE OR REPLACE FUNCTION public.get_rand_x_record(
    x integer,
    n bigint)
  RETURNS SETOF jfeatures_cntf AS
$BODY$
DECLARE
BEGIN
    --- Random select
    RETURN QUERY SELECT * FROM public.jfeatures_cntf
        OFFSET floor(random()*N) LIMIT x;
END;
$BODY$
  LANGUAGE plpgsql VOLATILE

Logistic回归求偏导的函数

得到数据以后，我们首先会求y，也就是1/(1+exp(1+b^Tx))，随后将(y-t)广播的乘到X上，最后求和就得到了结果。

CREATE OR REPLACE FUNCTION public.log_model_lr_random(
    batch_size integer,
    pview double precision,
    padd double precision,
    pdel double precision,
    pstar double precision,
    pclick double precision)
  RETURNS double precision[] AS
$BODY$
DECLARE
    OUT_VALUE RECORD;
BEGIN
    SELECT ---grad<-sum((y-t)*X)
        sum(log(cview+1)*D)/batch_size as pdview,
        sum(log(cadd+1)*D)/batch_size as pdadd,
        sum(log(cdel+1)*D)/batch_size as pddel,
        sum(log(cstar+1)*D)/batch_size as pdstar,
        sum(log(cclick+1)*D)/batch_size as pdclick
    INTO OUT_VALUE
    FROM
    (   ---get y-t from data
        SELECT *,
            (1.0/(exp(
            pview*log(cview+1) + 
            padd*log(cadd+1) +
            pdel*log(cdel+1) +
            pstar*log(cstar+1) +
            pclick*log(cclick+1) + 1.0
            )+1.0)
            ) - (case when cbuy>0 then 1.0 else 0.0 end)
            AS D
        FROM get_rand_x_record(batch_size)
    ) AS SUBS;
    return ARRAY[
        OUT_VALUE.pdview, 
        OUT_VALUE.pdadd,
        OUT_VALUE.pddel,
        OUT_VALUE.pdstar,
        OUT_VALUE.pdclick];
END;$BODY$
  LANGUAGE plpgsql VOLATILE

当然，这个函数也可以由N确定的版本（也就是如果你在计算过程中保证行数不变化的话可以使用的版本）,我最终使用的也就是这个版本。

这个就由大家自己写吧！

性能

关于性能方面，对3,000,000条数据求偏导需要1min！要知道，这在Matlab上（使用bsxfun做了并发）只需要0.5秒，这个性能差了100多倍（当然PostgreSQL在单次任务上不支持并行计算也是一个软肋），但是这个是有限定的，一个是内存计算，一个是外存计算，当数据量大到一定程度的时候，往往就需要外存算法。
Logistic是支持并行的，用SQL明显委屈他了，下次咱用Spark发挥出他最大的优势。

转载于:https://www.cnblogs.com/TsingJyujing/p/6814047.html

weixin_30619101

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[瞎玩儿系列] 使用SQL实现Logistic回归

本来想发在知乎专栏的，但是文章死活提交不了，我也是醉了，于是乎我就干脆提交到CNBLOGS了。前言前段时间我们介绍了Logistic的数学原理和C语言实现，而我呢？其实还是习惯使用Matlab进行计算的，而且是不带C的Matlab。（主要我们都用Windows）那为什么要用SQL实现呢?（准确的说是PL/SQL）因为我发现数据一次性加载进内存里面太大了，直接在SELECT的时候OutOfM...
复制链接

扫一扫