2019年秋季数据挖掘与机器学习课程学习笔记

第一节课

第二节课

第三节课

第四节课 density estimation

介绍:

X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1,X2,...,Xn是来自分布 P P P的密度为 p p p的样本,非参数密度估计目标就是在最少的关于密度 p p p的假设的情况对 p p p进行估计。我们用 p ^ \hat p p^来表示 p p p的估计。这个估计会依赖一个光滑的参数 h h h,小心的选择 h h h是关键的。为了强调这个对 h h h的依赖,我们使用 p ^ h \hat p_h p^h记号。

密度估计可被用于:回归、分类、聚类、无监督预测。举例而言:如果 p ^ ( x , y ) \hat p(x,y) p^(x,y) p ( x , y ) p(x,y) p(x,y)的一个估计,那么我们可以得到回归函数的以下估计:
m ^ ( x ) = ∫ y ( ^ y ∣ x ) d y \hat m(x)=\int y\hat (y|x)dy m^(x)=y(^yx)dy
其中 p ^ ( y ∣ x ) = p ^ ( y , x ) p ^ ( x ) \hat p(y|x)=\hat p(y,x)\hat p(x) p^(yx)=p^(y,x)p^(x).对于分类问题而言,我们回忆Bayes rule:
h ( x ) = I ( p 1 ( x ) π 1 > p 0 ( x ) π 0 ) h(x)=I(p_1(x)\pi_1>p_0(x)\pi_0) h(x)=I(p1(x)π1>p0(x)π0)
其中 π 1 = P ( Y = 1 ) , π 0 = P ( Y = 0 ) , p 1 ( x ) = p ( x ∣ y = 1 ) \pi_1=\mathbb{P}(Y=1),\pi_0=\mathbb{P}(Y=0),p_1(x)=p(x|y=1) π1=P(Y=1),π0=P(Y=0),p1(x)=p(xy=1), p 0 ( x ) = p ( x ∣ y = 0 ) p_0(x)=p(x|y=0) p0(x)=p(xy=0).输入样本对于 π 1 , π 0 \pi_1,\pi_0 π1,π0的估计,对 p 1 , p 0 p_1,p_0 p1,p0的密度估计则会产生一个基于Bayes rule的预测。很多你熟悉的分类器可以被用这种方式重新表述。

损失函数

最常使用的损失函数是 L 2 L_2 L2损失:
∫ ( p ^ − p ( x ) ) 2 d x = ∫ p ^ 2 ( x ) d x − 2 ∫ p ^ ( x ) p ( x ) + ∫ p 2 ( x ) d x \int(\hat p-p(x))^2dx=\int\hat p^2(x)dx-2\int\hat p(x)p(x)+\int p^2(x)dx (p^p(x))2dx=p^2(x)dx2p^(x)p(x)+p2(x)dx
风险是 R ( p , p ^ ) = E ( L ( p , p ^ ) ) R(p,\hat p)=\mathbb{E}(L(p,\hat p)) R(p,p^)=E(L(p,p^))
Devroye and Gyorfi(1985) 强烈推荐使用 L 1 L_1 L1范数
∥ p ^ − p ∥ 1 ≡ ∫ ∣ p ^ ( x ) − p ( x ) ∣ d x \|\hat p-p\|_1\equiv\int|\hat p(x)-p(x)|dx p^p1p^(x)p(x)dx
作为 L 2 L_2 L2范数的代替。 L 1 L_1 L1损失有以下的良好解释:如果 P , Q P,Q P,Q是分布,定义全变差度量:
d T V ( P , Q ) = s u p A ∣ P ( A ) − Q ( A ) ∣ d_{TV}(P,Q)=sup_A|P(A)-Q(A)| dTV(P,Q)=supAP(A)Q(A)
上确界取遍所有的可测集。如果 P , Q P,Q P,Q有密度 p , q p,q p,q那么有:
d T V ( P , Q ) = 1 2 ∫ ∣ p − q ∣ = 1 2 ∥ p − q ∥ 1 d_{TV}(P,Q)=\frac{1}{2}\int|p-q|=\frac{1}{2}\|p-q\|_1 dTV(P,Q)=21pq=21pq1
因此,如果 ∫ ∣ p − q ∣ < δ \int|p-q|<\delta pq<δ那么我们知道 ∣ P ( A ) − Q ( A ) ∣ < δ 2 |P(A)-Q(A)|<\frac{\delta}{2} P(A)Q(A)<2δ对于所有的 A A A。同样的, L 1 L_1 L1范数是一个变形不变量(transformation invariant)。假设 T T T是一个一对一的光滑映射,令 Y = T ( X ) Y=T(X) Y=T(X)。令 p p p q q q X X X的密度,令 p ^ , q ^ \hat p,\hat q p^,q^是相应的 Y Y Y的密度,那么:
∫ ∣ p ( x ) − q ( x ) ∣ d x = ∫ ∣ p ^ ( y ) − q ^ ( y ) ∣ d y \int|p(x)-q(x)|dx=\int|\hat p(y)-\hat q(y)|dy p(x)q(x)dx=p^(y)q^(y)dy
因此在此定义下的距离不会因为一一映射而改变,但无论如何我们还是聚焦于 L 2 L_2 L2损失。

Histograms直方图

Perhaps the simplest density estimators are histograms. For convenience, assume that the data X 1 , . . . , X n X_1,...,X_n

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值