Machine Learning Foundation Lecuture 05 Training versus Testing 学习笔记

第5讲学习笔记

        知识点1:在第4讲中知道只有在H(hypothesis set)数量M有限,N(样本数据量)足够大的情况下,针对某个hypothesis,(h)(h)的可能性是很大的(即长的很像),不管Learning Alogorithm如何来选择这个hypothesis。这样我们就能找一个(h)0的hypothesis作为g,这样根据hoeffding不等式(h)0的可能性也很大(PAC probably approximately correct,就是在满足前面的条件下(h)大概差不多也接近于0)。这里M(hypothesis set的数量)是很重要的,太小,相似的机率很大,但是选择性太少,不能保证g是最好的;太大(无限大),选择性很多,但相似的机率太小,不能保证预测的准确性;但是当M数量很大时,真的的相似的可能性真的很小吗?因为P[Hypothesis setBAD]=P[ BAD]+P[ BAD]+...+[ BAD],所以我们要考虑P的重叠,以PLA在为例,PLA的Hypothesis Set的个数有无限多个(可以画无限多条线),如果2条线之间的差异很小,那这2条线的几乎是差不多的,所以我们需要对线进行分类,即有多少条有效的线。如果M是无穷的,但是线的类别是有限的,这样Machine Learning是可行的。

        例如:

上有1个点,那Hypothesis Set分为2类线,一类是O,另一类是X。

上有2个点,那Hypothesis Set分为4类线,(O,O), (X,X), (O,X), (X,O)。

上有3个点,那Hypothesis Set最多分为8类线,(O,O,O), (X,X,X), (O,O,X), (X,X,O), (X,O,O), (O,X,X), (X,O,X), (O,X,O)如果3点共一线,就分为6类线,少了 (X,O,X), (O,X,O)

上有4个点,那Hypothesis Set最多分为14类线;

从上面的例子可以看出Hoeffding不等式中的M,可以替换成有限的Effecitive(N);公式如下:


        知识点2:Dichotomy(二分),即有几种O和X的组合,通俗说就是Data的排列组合的个数。

        知识点3:Growth function(成长函数(N) (max number of dichotomy)

        我们需要用成长函数m来取代M,如果m是polynomial(多项式)就是好的(坏事发生的机率很小);如果m是exponential(指数)就是不好的(坏事发生的机率不是很小)。

        知识点4:Break Point(停止点),在上面的例子中2个点我们能做出4类线,3个点我们最多能做出8类线,4个点我们最多能做出14类线,这里第4个点就是Break Point,做不出16类线。(K) <(第一个做不出来的点就是break point)。


        能否猜测:

        有break point,那么growth function是polynomial;没有break point,那么growth function是exponential?



评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值