下面我们讨论一种将“概率密度函数估计问题”转化为“有监督的函数逼近”的技巧。
设为未知的、需要估计的概率密度函数,为指定用来作为“参考”的、已知的概率密度函数。设为从抽取的一个独立同分布的“训练样本”。我们也可以使用蒙特卡洛的方法从抽取一个样本量为的独立同分布“参考样本”。将质量分配给训练样本,将质量分配给参考样本。(我觉得上述分配质量的操作无异于令)。将上述两个样本混合,得到一个从概率密度抽取的随机样本。
如果我们将标签和分别赋给训练样本和参考样本,那么,条件概率函数
(I)
可以使用作为训练样本,通过有监督学习来估计。条件概率函数的估计可以用来估计,
(II)
这里,推广的逻辑回归模型非常适合这种应用。令
(III)
当我们得到时,。
如下是一个例子
左图中为200个训练样本,右图中的200个蓝点为在“训练样本所在的矩形区域”中服从均匀分布的参考样本。训练样本被打标为1,参考样本被打标为0,使用“自然样条张量积”(tensor product of natural splines)构造逻辑回归模型。右图中的曲线为的等高线,由(II)式,由于参考样本来自于均匀分布,所以为常数,所以与成正比,所以右图中的等高线也是的等高线。