![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
西瓜书
每天吃一个苹果
这个作者很懒,什么都没留下…
展开
-
周志华机器学习笔记 第2章 模型评估
2.1经验误差与过拟合我们实际希望的,是在新样本上能表现的很好的学习器。为了达到这个目的,应该从样本中尽可能学出适用于所有潜在样本的"普遍规律",这样才能在遇到新样本时作出正确的判断。导致过拟合的因素:学习能力过于强大,把训练样本所包含的不太一般的特性学到了。导致欠拟合的因素:学习能力低下2.2评估方法测试集应该尽可能与训练集互斥, 即测试样本尽量不在训练集中出现。2.2.1 留出法...原创 2019-06-06 15:34:06 · 283 阅读 · 0 评论 -
周志华机器学习作业练习 第2章 模型评估与选择
从正例中取150+从反例中取150 :(C500150)2(C_{500}^{150})^2(C500150)210折交叉检验:假设样本分布均匀(每次训练样本中正反例数目一样),所以错误率的期望是50%。留一法:特殊的交叉验证方法(样本数为m,进行m折交叉验证)错误率为100%1.BEP 是根据不同分类阀值找到查准率=查全率时的取值2.而F1是根据不同分类阀值选取的最大F值3....原创 2019-06-10 10:39:11 · 441 阅读 · 0 评论 -
周志华机器学习笔记 第3章线性模型
课外延伸-广义线性模型:广义线性模型相当广泛,广义线性模型突破了很多线性回归模型的约束。不要求相应变量与自变量直接线性相关不要求方差齐性不要求正态分布,它包括普通回归模型,连续相应变量ANOVA模型以及针对属性相应变量的模型。所有广义线性模型都有三个部分:随机部分:识别相应变量Y并假设其概率分布系统部分:指定模型中的解释变量联系函数:指定Y的期望的函数,这个函数使得GLM通过具...原创 2019-06-11 12:13:10 · 290 阅读 · 0 评论 -
周志华机器学习笔记 第4章决策树
相亲决策树生成(类似于这样,网上还有更多很形象的例子):提出问题:决策树谁最优先分割(如何排序的)?决策树是如何分割的(定量数据/定性数据)?带着问题接着往下看4.2.1 信息增益信息熵:最早是香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。公式: Ent(D)=−∑i=1mpilog2piEnt(D) = -\s...原创 2019-06-17 18:41:13 · 345 阅读 · 0 评论