不定期更新,欢迎指正。
第一章 统计学习及监督学习概论
1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这是可以用极大似然估计或贝叶斯估计来估计结果为1的概率。
解:设随机变量X服从参数为p的伯努利分布,这里p是待估参数(0
这里x=0或1,0
设
与
分别为从总体出取出的容量为n的样本及其观测值,考虑到n次试验中有k次的结果为1,则
。伯努利模型的极大似然估计
模型:伯努利模型(条件概率分布)
策略:经验风险最小化
算法:
似然函数为:
取对数后对p求偏导数:
令
,解得
,因此伯努利模型参数p的极大似然估计值为:
伯努利模型的贝叶斯估计
模型:伯努利模型(条件概率分布)
策略:结构风险最小化
算法:
假设参数p服从参数为a和b的Beta分布,即p~Be(a,b),则其概率密度函数为:
记样本集为D={
},对应的观测值为{
},
,则样本的联合分布为:
参数p的最大后验概率估计为:
设
,
则当
时,f(p)取得极大值,此时我们得到参数p的贝叶斯估计值:
其中a和b是参数p服从的Beta分布中的参数。
1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
证明:经验风险最小化即求解下列最优化问题:
当模型是条件概率分布,损失函数是对数损失函数时,上述问题等价于:
考虑到N是常数,因此,上述上述问题又等价于:
这就是极大似然估计。
第二章 感知机
2.1 Minsky和Papert指出:感知机因为是线性模型,所以不能表示复杂的函数,如异或(XOR)。验证感知机为什么不能表示异或。
解:异或指以下模型:
用图形表示如下:
其中,蓝色的点表示负实例点(y=0),红色的点表示正实例点(y=1)。从图形上看,我们找不到一条直线将红色的点与蓝色的点完全分开。下面我们给出严格的证明,即证明对于任意的
,感知机模型
都存在误分类点。
用反证法,假设存在
,使得所有的正实例点和负实例点被正确分类,我们有
由上面的(3)(4)式可知:
,两边同时减b并联立(1)式,得