- 博客(3)
- 收藏
- 关注
原创 西瓜书--第四章读书笔记
1、决策树构建的基本流程利用分而治之的想法,选择最优化分属性,将训练集根据此属性分为两类,以此类推。有三种情况将结束递归,(1)当前节点全部属于统一类别,无需划分。(2)当前属性值为空,或是所有样本在所有属性上取值相同,无法划分。(3)当前节点包含的样本为空,不能划分。2、如何选择最优划分属性?一般来说,我们希望决策树的分支节点所包含的样本尽可能属于同一类别,即节点的“纯度”越来越高。我们使用信息熵作为度量样本纯度最常用的指标:那么如何计算信息增益呢?以西瓜的数据集为例,我们..
2021-08-28 17:27:43
187
原创 西瓜书--第三章读书笔记
第三章 线性模型1、线性模型的基本形式w因为直接展示属性在预测中的重要性,所以线性模型有着很好的解释性。我们可以直观的看到每个属性的对于预测结果的权重。2、均方误差,用来衡量w和b这两个参数,以此来缩小预测值到实际值的差距:w和b的最优解,即为:为所有样本的均值。对于有m个样本的数据集,数据集D可以用矩阵X表示:要注意的一点是,我们的矩阵不一定是满秩矩阵,比如有一些超多变量的矩阵,就会导致列数多于行数,常见的做法是引入正则化项。3、对数线性回归和广...
2021-08-24 00:26:04
139
原创 西瓜书--第一章、第二章读书笔记
第一章 (1)学习任务大致可以分为两类,监督学习supervised learning和无监督学习unsupervised learning。 (2)学得模型适用于新样本的能力,被称为泛化generalization能力。 (3)归纳induction和演绎deduction,前者是特殊到一般的泛化,后者是一般到特殊的特化。 (4)NFL 定理最重要的寓意是让我们清楚地认识到,脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好。...
2021-08-18 00:43:43
94
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人