1、基本概念
标量,向量,矩阵,张量;范数;加法,乘法
特征分解、奇异值分解、伪逆、主成分分析(降维、重建误差最小)
期望、方差、协方差
指数族分布、高斯、拉普拉斯
学习:经验、(性能,任务)
模型或假设的容量(欠拟合、过拟合)
2、学习假设h的参数时优化目标
(1)最大似然maximum likelihood,认为观测是最可能的,需要观测,argmax p(D|h)
如果认为观测由作用在假设上的某个函数加上高斯噪声产生的,则等价于最小均方误差
(2)最大后验maximum a postrior,不认为观测是最可能发生的,认为完美的假设比观测可靠,需要观测和先验,argmax p(h|D)
h有限可以把所有h算一遍试试哪个大
(3)最小描述长度minimize description length,其实是最小kolmogorov复杂度,需要观测和图灵机,argmax L(h,D) <= L(h)+L(D|h)
当认为观测数据出现的可能性是常数时,最大后验等价于最优编码时的最小描述长度
mdl和bayesian里的mml几乎相同,区别是假如L(h,D)=L(D|h)L(h)都相等的基础上,mdl要求L(h)尽可能小,不确定性要从L(h)中转移到L(D|h)上去。
(4)分类器
贝叶斯最优分类器
这种分类器都要求必须:(1)已知假设空间H={h1,h2,h3...},(2)已知给定观测数据空间D={都1,d2,d3...}时,某条假设h成立的概率p(h|D),(3)已知给定某条假设h时,分到某个类c的概率p(c|h),(4)可遍历所有的假设h,(5)所有的观测数据d。所有这些条件,少一个都不能称为贝叶斯最优分类器。而在现实中,(1)不知道假设空间里的所有h是什么,(2)即使知道假设空间里的所有h是什么,也不知道给定当前观测数据时的,某条假设成立的概率,(3)要求我们在定义假设空间H及里面的所有假设时必须要能够明确给出该假设成立时分到各个类别的概率,(4)假设空间其实很大,不可以进行遍历操作,或者无法选中特定的一条假设,(5)观测数据必须要采集到手,无论是花钱买,下载开源的,还是自己去采集。
根据要求(3)二分类时最常用的假设空间是和《乌尔纳姆法典》和《汉谟拉比法典》类似的if-then规则,该条假设能告诉我们它是类别a还是类别b;或者定义在样本空间上到二值离散空间的映射,或者是即如果给出一条数据,该条假设能告诉我们它是类别a的概率和类别b的概率。
总结下有这几条要求,
(1)观测数据给定,(2)假设空间H给定,该假设空间具有以下性质:空间中的任意假设h为已知;任意假设h都可以作用到数据x上成为h(x);可以遍历所有假设h(4)如果给定观测数据D和符号上述数据的假设空间中的假设h,那么任意假设h成立的概率为已知,取值为p(h|D)(5)针对分类而言h(x)为样本的类别。
贝叶斯最优的意义是在假设空间相同,先验p(h)相同的基础上的最优,一旦有很多资源,能够把假设空间变的更大更大,不停的变大,弄大模型,很可能就会比原本的贝叶斯最优更好!也就是说接近贝叶斯最优后,我们就可以说我没办法做的更好了,谁来了也不行,得加钱探索更大的假设空间。
对于概念学习,关于假设空间中的假设,一般是属性组合<A,B,C>,取值可以是任意,空集,或某个属性。
经过数据验证过的假设空间叫版本空间。贝叶斯最优的决策可以不是其中任何一个假设的决策,而是这些假设的线性组合。
吉布斯分类器
吉布斯分类器改变了贝叶斯最优分类器的要求,不要求我们可以对假设空间进行遍历操作,但是要求存在作用于假设空间上的这种抽样工具或方法,这种工具或方法使得我们能够根据定义在假设空间H上的分布或密度p(h|D),从假设空间H抽样一条假设h,然后我们就用这种工具抽样出来的假设h来作用到x上计算出结果,除此之外没有任何与贝叶斯最优分类器不同的地方。
如果说观测数据是经验,假设空间是一本写好的巨大的法典或法律,魔法杖能够告诉我们给定观测时某个假设成立的概率,如果说,那么,贝叶斯的方法是要求这本法典可以被全翻个遍,从第一页翻到最后一页,吉布斯的方法不要求翻书,但要求我们的魔法杖不仅能够告诉我们概率值,还能够根据概率值每次从法典中随机抽取一条拿来用,产生h(x)。
吉布斯分类器误差小于等于两倍贝叶斯分类误差。也就是如果假设空间里的假设是均匀分布,如果真实的目标概念是从我们的假设空间中抽取的,然后给学期器,那么,从当前版本空间根据均匀分布随机选择一个假设,期望误差不会超过贝叶斯误差的两倍。也就是说假设版本空间是均匀分布还算凑合。贝叶斯最优的条件里的(4)p(h|D)如果你不知道这个p是什么,也就是现有样本你没法判断还没被推翻的假设的哪个概率大,谁的概率小,假设它是均匀分布就行了,不会太差。
590

被折叠的 条评论
为什么被折叠?



