![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习基石课程
文章平均质量分 67
韬光养晦气
这个作者很懒,什么都没留下…
展开
-
机器学习基石第七讲笔记
Lecture 7:the VC Dimension VC维7-1 VC维定义衔接第6课,当N和K都不算小的时候,可以得到:成长函数m会比N^(k-1)小。其中6-4的式子取等号的时候,是当成长函数的上限直接取为N^(k-1)时。那VC维是什么呢?是上节课所说的没有达到break point时的最大情况。这是什么意思?在VC维时,假说可以shatter掉某N个点原创 2018-02-01 21:53:44 · 395 阅读 · 0 评论 -
机器学习基石第十三讲笔记
Lecture 13: Hazard of Overfitting 过拟合的危险13-1 什么是过拟合失败的一般化:low Ein,high Eout。VC维很大的时候,会造成过拟合。VC维太小的时候,会造成欠拟合。造成过拟合的原因:过大的VC维,噪声,少的data size N。 13-2 噪声和data size的作用Overfit:Ein很小但Eout特别大。当没有noise时,g2也会做得...原创 2018-03-05 11:42:18 · 300 阅读 · 0 评论 -
机器学习基石第十五讲笔记
Lecture 15: Validation验证15-1 模型选择问题什么是好的模型?答:可以让Eout最小。但这就面临着问题:我们不可能知道Eout的值。那么该怎么选呢?也不可以visual去选。(如果高维呢)选Ein最小的?答:不可以,过拟合情况;或者可能有bad generalization。一种答案:选有最好的测试结果的模型。在已有数据中留下一小部分当做做完模型的测试集。15-2 测试集上...原创 2018-03-09 16:45:13 · 306 阅读 · 0 评论 -
机器学习基石第十二讲笔记
Lecture 12: Nonlinear Transformation非线性变换12-1 二次Hypotheses线性假设优点:dVC的复杂度受限制;缺点:在某些点上无法分开,造成Ein很大。改进:比如用圆圈来区分那么怎么用圆圈做PLA或回归问题呢?(如何系统地讨论这个问题呢)设的公式为:这时,x和z事件中有这样的转化:所以可以把二次重新转换为一次,接着用线性来进行操作。根据w指的不同,二次曲线...原创 2018-03-01 20:17:00 · 233 阅读 · 0 评论 -
机器学习基石第十一讲笔记
Lecture 11: Linear Models for Classification11-1 二分类的线性模型在上一节比较了线性分类,线性回归和逻辑回归:那么linear classification求解Ein时是NP难问题,能否由后两者帮忙求解?算出三种情况的error function,分别为:可以画出error function的图为:其中,scaled ce=log2(1+exp(-y...原创 2018-02-28 21:21:24 · 250 阅读 · 0 评论 -
机器学习基石第十讲笔记
Lecture 10: Logistic Regression 逻辑回归10-1 逻辑回归问题心脏病预测问题:是否有心脏病的soft的二元预测问题(20%?80%?):training集在理想中,f是0-1的数;但实际上,f只有0或1(患病或者不患病)。那么这时应当如何求得好的hypothesis呢?加上x0, 算一个加权分数s:之后把s转化为0-1中间的数,结果如图:故逻辑回归的表达式为:用h来...原创 2018-02-27 20:59:30 · 269 阅读 · 0 评论 -
机器学习基石第十四讲笔记
Lecture 14: Regularization 规则化14-1 规则化假说集regularization:the magic 从多次的hypothesis set走回到低次的hypothesis set,避免了overfit的发生。ill-posed problems:指有很多的函数都满足solution,所以要限制一下,不然会出现问题。so how to step back?高次的hypo...原创 2018-03-06 21:18:01 · 276 阅读 · 0 评论 -
机器学习基石第六讲笔记
Lecture 6:theory of generalization一般化理论6-1 Restriction of Break Points 成长函数m:假说h在n个点上可以产生多少个二分(dichotomies)。若正向o,反向×,则理解程度一般,positive intervals为什么xox可以呢?这种情况认为x2和x3是被shatter的(4种情况都原创 2018-01-28 16:50:03 · 599 阅读 · 0 评论 -
机器学习基石第九讲笔记
Lecture 9: Linear Regression线性回归9-1 线性回归问题信用额度问题:x=(x0,x1,x2,...,xd)为顾客特征,y是输出的加权后的信用额度,线性回归假说为h,如图:那么线性回归长什么样呢?在输入为一维时如左图,输入为二维时如右图:线性回归分析想要做的就是找到一个最好的线或者最好的面,希望红色的线的部分越小越好。那通常是怎么原创 2018-02-03 16:33:10 · 630 阅读 · 0 评论 -
机器学习基石第八讲笔记
Lecture 8: Noise and Error8-1 噪声和可行解噪声来源:错误标记,相同的所有特征但不同标记,错误的特征。VC bound在有noise的情况下是否仍正常呢?答:将固定的理想目标函数f(x)替换为变化的P(y/x),对每一个点的预测结果可以看为“最理想的预测结果f(x)”+“noise”的结果。整个VC bound没有问题,仍可以继续使用。Fun tim原创 2018-02-02 21:15:49 · 319 阅读 · 0 评论 -
机器学习基石第十六讲笔记
Lecture 16: Three Learning Principles16-1 奥卡姆剃刀简单的假说H(few parameters),简单的模型(small number of hypotheses)16-2 抽样偏差1948年的总统选举,电话抽样结果和实际结果不一致。原因:电话未普及,富人被抽样。抽样有偏差时,会影响学习结果。举例:推荐系统是在时间轴上,不能随机取样;银行信用卡的系统,只有...原创 2018-03-13 21:15:23 · 206 阅读 · 0 评论