用有监督的学习方法来学习无监督学习模型

最新推荐文章于 2022-03-07 09:42:57 发布

shanghai_in_summer

最新推荐文章于 2022-03-07 09:42:57 发布

阅读量569

点赞数 1

分类专栏： Statistics 数据挖掘

本文链接：https://blog.csdn.net/sunjianqiang12345/article/details/83040351

版权

数据挖掘同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

Statistics

5 篇文章 0 订阅

订阅专栏

下面我们讨论一种将“概率密度函数估计问题”转化为“有监督的函数逼近”的技巧。

设 $g(\vec{x})$ 为未知的、需要估计的概率密度函数， $g_0(\vec{x})$ 为指定用来作为“参考”的、已知的概率密度函数。设 $\vec{x}_1,\vec{x}_2,...,\vec{x}_N$ 为从 $g(\vec{x})$ 抽取的一个独立同分布的“训练样本”。我们也可以使用蒙特卡洛的方法从 $g_0(\vec{x})$ 抽取一个样本量为 $N_0$ 的独立同分布“参考样本”。将质量 $w=N_0/(N+N_0)$ 分配给训练样本，将质量 $w_0=N/(N+N_0)$ 分配给参考样本。（我觉得上述分配质量的操作无异于令 $N_0=N$ ）。将上述两个样本混合，得到一个从概率密度 $(g(\vec{x})+g_0(\vec{x}))/2$ 抽取的随机样本。

如果我们将标签 $Y=1$ 和 $Y=0$ 分别赋给训练样本和参考样本，那么，条件概率函数

$\mu (\vec{x})=E(Y|\vec{x})=p(Y=1|\vec{x})=\frac{p(\vec{x}, Y=1)}{p(\vec{x})}\\=\frac{p(Y=1)p(\vec{x},Y=1)}{p(Y=0)p(\vec{x}|Y=0)+p(Y=1)p(\vec{x}|Y=1)}\\=\frac{w\frac{N}{N+N_0}g(\vec{x})}{w_0\frac{N_0}{N+N_0}g_0(\vec{x})+w\frac{N}{N+N_0}g_0(\vec{x})}=\frac{g(\vec{x})}{g(\vec{x})+g_0(\vec{x})}=\frac{g(\vec{x})/g_0(\vec{x})}{1+g(\vec{x})/g_0(\vec{x})}$ (I)

可以使用 $（y_1,\vec{x}_1)$ $(y_1,\vec{x}_1),(y_2,\vec{x}_2),...,(y_{N+N_0},\vec{x}_{N+N_0})$ 作为训练样本，通过有监督学习来估计。条件概率函数的估计 $\hat{\mu}(\vec{x})$ 可以用来估计 $g(\vec{x})$ ,

$\hat{g}(\vec{x})=g_0(\vec{x})\frac{\hat{\mu}(\vec{x})}{1-\hat{\mu}(\vec{x})}$ (II)

这里，推广的逻辑回归模型非常适合这种应用。令

$f(\vec{x})=ln{\frac{g(\vec{x})}{g_0(\vec{x})}}$ (III)

当我们得到 $\hat{f}(\vec{x})$ 时， $\hat{g}(\vec{x})=g_0e^\hat{f}(\vec{x})$ 。

如下是一个例子

左图中为200个训练样本，右图中的200个蓝点为在“训练样本所在的矩形区域”中服从均匀分布的参考样本。训练样本被打标为1，参考样本被打标为0，使用“自然样条张量积”（tensor product of natural splines）构造逻辑回归模型。右图中的曲线为 $\hat{\mu}(\vec{x})$ 的等高线，由(II)式，由于参考样本来自于均匀分布，所以 $g_0(\vec{x})$ 为常数，所以 $\hat{g}(\vec{x})$ 与 $\mu(\vec{x})/(1-\mu(\vec{x}))$ 成正比，所以右图中的等高线也是 $\hat{g}(\vec{x})$ 的等高线。

shanghai_in_summer

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用有监督的学习方法来学习无监督学习模型

下面我们讨论一种将“概率密度函数估计问题”转化为“有监督的函数逼近”的技巧。设为未知的、需要估计的概率密度函数，为指定用来作为“参考”的、已知的概率密度函数。设为从抽取的一个独立同分布的“训练样本”。我们也可以使用蒙特卡洛的方法从抽取一个样本量为的独立同分布“参考样本”。将质量分配给训练样本，将质量分配给参考样本。（我觉得上述分配质量的操作无异于令）。将上述两个样本混合，得到一个从概率密度抽取...
复制链接

扫一扫