机器学习西瓜书
文章平均质量分 94
一蓑烟雨晴
这个作者很懒,什么都没留下…
展开
-
机器学习西瓜书——第七章 贝叶斯分类器
贝叶斯决策论是在概率框架下实施决策的基本方法。对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记。下面我们以多分类任务为例来解释其基本原理。假设有NNN种可能的类别标记,即Y={c1,c2,…,cN},λij\mathcal{Y}=\left\{c_{1}, c_{2}, \ldots, c_{N}\right\}, \lambda_{i j}Y={c1,c2,…,cN},λij是将一个真实标记为cjc_jcj的样本误分类为cic_ic原创 2022-07-10 17:46:39 · 1750 阅读 · 16 评论 -
机器学习西瓜书——第六章 支持向量机
从几何角度,对线性可分数据集,支持向量机就是找距离正负样本都最远的超平面,相比于感知机,其解是唯一的,且不偏不倚,泛化性能更好。给定训练样本集,分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开,支持向量机倾向找到产生分类结果具有鲁棒性,对未见示例的泛化能力最强的划分超平面。假设超平面能将训练样本正确分类,即{wTxi+b⩾+1,yi=+1wTxi+b⩽−1,yi=−1\begin{cases}\boldsymbol{w}^{\mathrm{T}} \bolds原创 2022-06-29 16:59:30 · 956 阅读 · 4 评论 -
机器学习西瓜书——第五章 神经网络
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。误差逆传播算法(BackPropagation,简称BP)是迄今为止最成功的神经网络学习算法。通常说“BP网络”时,一般是指用BP算法训练的多层前馈神经网络。一般来说,标准BP算法每次更新只针对单个样例,参数更新得非常频繁,而且对不同样例进行更新的效果可能出现“抵消”现象。因此,为了达到同样的累积误差最小化,它在读取整个训练集D一遍后才对参数进行更新,其参数更新的频率低得多。但在很多任务原创 2022-06-26 20:40:19 · 1637 阅读 · 4 评论 -
机器学习西瓜书——第四章 决策树
决策树学习的目的是为了产生一颗泛化能力强,即处理未见示例能力强的决策树,其基本流程遵循简单且直观的“分而治之”策略。决策树的生成是一个递归过程。在决策树基本算法中,有三种情形会导致递归返回:(1)当前结点包含的样本全属于同一类别,无需划分;(2)当前属性集为空,或是所有样本在所有属性上取值相同,无法划分;(3)当前结点包含的样本集合为空,不能划分。在第(2)中情况下,我们把当前结点标记为叶结点,并将其类别设定为该结点所含样本最多的类别,即在利用当前结点的后验分布;在第(3)种情况下,同样把当前结点标记为叶结原创 2022-06-22 09:37:13 · 1906 阅读 · 3 评论 -
机器学习西瓜书——第三章 线性模型
常见线性模型机理与实现(线性回归,logistics回归,线性判别模型,高斯判别模型)原创 2022-06-19 15:25:32 · 978 阅读 · 0 评论 -
机器学习西瓜书——第二章 模型评估与选择
错误率——分类错误的样本数占样本总数的比例,即错误率E=a/m,如果在m个样本中有a个样本分类错误。精度——1-E=1-a/m,即精度=1-错误率误差(误差期望)——学习器的实际预测输出与样本的真实输出之间的差异。学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”。过拟合——学习器已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。欠拟合——对训练样本的一般性质尚未学好。在模型选择完成后,学习算法和参数配置已选定,此时应该用原创 2022-06-12 19:56:20 · 498 阅读 · 1 评论 -
机器学习西瓜书——第一章 绪论
以上是西瓜数据集的训练集色泽有“青绿”、“乌黑”和“浅白”三种根蒂有“蜷缩”、“硬挺”和“稍蜷”三种敲声有“浊响”、“清脆”和“沉闷”三种西瓜书中的假设空间由形如“好瓜(色泽=?)∧(根蒂=?)∧(敲响=?)”的可能取值所形成的假设组成。并且考虑极端情况,即世界上没有“好瓜”这种东西,用∅表示这个假设。此时的假设空间规模为4×4×4+1=65种情况。在此博主进行了细致说明。现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与...原创 2022-06-11 20:12:37 · 846 阅读 · 0 评论