西瓜书学习笔记
文章平均质量分 93
西瓜书笔记
ArthurWong7
HSIN-YANG HUANG
展开
-
西瓜书学习笔记4
西瓜书学习笔记——决策树一、基本流程一颗决策树包含一个根结点、若干个子结点和若干个叶结点。根结点:包含样本全集;子结点:对应属性划分,包含划分样本;叶结点:对应决策结果,包含决策样本。从根结点到每个叶结点的路径:对应一个判定测试序列(系列子决策)。决策树采用分而治之(Divide and Conquer)策略,以一系列的子决策决定分类结果。决策树的生成是一个递归过程。核心是最优划分属性的选择,有三种情形导致递归返回:(1) 当前结点包含的样本全属于同一类别,无需划分,该结点类别确定。(2原创 2021-12-04 20:41:25 · 117 阅读 · 0 评论 -
西瓜书学习笔记3
西瓜书学习笔记——线性模型一、基本形式对于一个物体,线性模型通过学得各个属性的线性组合来对其进行预测:f(X) = w1*x1 + w2*x2 + …+wd*xd + b上式可以用向量形式写成 f(x) = ωTx + b当我们学习得到w和b之后便可以将模型确定下来。线性模型的应用范围比较有限,但我们可以在这几个基础上通过层级结构或高维映射得到功能更为强大的非线性模型。在线性模型中,w直观表达了各属性在预测中的重要性,因此线性模型有很好的可解释性(comprehensibility) 。二、线原创 2021-07-19 00:12:25 · 259 阅读 · 0 评论 -
西瓜书学习笔记2
西瓜书学习笔记——模型的评估与选择一、经验误差与过拟合错误率: 分类错误的样本数占样本总数的比例称为“错误率”,即如果我们在m个样本中有a个样本分类错误,则错误率为E=a/m。精度: 与错误率相对应,分类正确的样本数占样本总数的比例就是精度,即精度=1-错误率。误差: 学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为”泛化误差“。我们希望得到的学习器具有的泛化误差越小越好,但是我们事先并不知道新样本是什么样,实际能原创 2021-07-13 21:41:10 · 181 阅读 · 0 评论 -
西瓜书学习笔记1
西瓜书学习笔记——绪论一、引言经验: 在生活中,我们存在很多用经验来做判断的事情,在计算机系统中,这些经验用"数据”来进行表示,一条数据就是一个经验。模型: 指从数据中学得的结果。模式: 指局部性结果。机器学习的任务: 关于计算机从数据中产生“模型”的算法,也就是我们经常说的学习算法。有了这个模型,我们就可以将数据输入其中从而得到判断结果。机器学习的形式化定义: 假设用P来评估计算机程序在某一个任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E原创 2021-07-13 21:39:48 · 167 阅读 · 0 评论