自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 机器学习西瓜书和南瓜书第6章学习笔记

从几何角度,对于线性可分数据集,支持向量机就是找距离正负样本都最远的超平面。在现实任务中,线性不可分才是最常见的,因此需要允许支持向量机犯错。的间隔带来拟合样本,间隔带内不计损失,间隔带外样本到间隔带边界的距离为损失。的间隔,因此可以将必须严格执行的约束条件转化为具有一定灵活性的损失,即。的达到最大的超平面,套上sign函数实现分类功能。指向的那一半空间为正空间,另一半为负空间;如果两边采用不同的松弛程度,问题为。关于超平面的几何间隔为所有样本点。关于超平面的几何间隔的最小值,即。关于超平面的几何间隔为。

2023-09-26 15:53:33 66

原创 机器学习西瓜书和南瓜书第5章学习笔记

感知机等单个神经元只能分类线性可分的数据集,而神经网络可以分类线性不可分的数据集。只要包含足够多神经元的隐层,多层前馈网络(一种经典的神经网络)就能以任意精度逼近任意复杂度的连续函数。假设多层前馈网络中激活函数全为sigmoid函数,且要完成一个多输出的回归任务,损失函数可以用均方差(分类任务则用交叉熵)单个M-P神经元有感知机(sgn作激活函数)、对数几率回归(sigmoid作激活函数)等;比较(作减法),最后经过激活函数(模拟抑制和激活)处理得到输出(通常输入其他神经元)。为特征向量,是感知机的输入;

2023-09-24 12:53:37 65 1

原创 机器学习西瓜书和南瓜书第4章学习笔记

预剪枝是将数据集以某属性划分前后计算验证集精度判断是否划分,若划分后精度下降则不划分。后剪枝是先生成决策树,计算某属性替换为叶子节点前后验证集精度,若替换后精度上升则替换。在决策树中对每个属性都进行决策大大提高计算量,而多变量决策树以多个属性为一个整体,使计算量得以降低。信息增益可能对取值数目较多的属性有所偏好,为减轻偏好,C4.5决策树用增益率代替信息增益。但增益率可能对取值数目较少的属性有所偏好,因此C4.5决策树先选信息增益高的,再从中选增益率高的。ID3决策树为以信息增益为准则选择划分的决策树。

2023-09-20 23:46:45 86

原创 机器学习西瓜书和南瓜书第3章学习笔记

二分类线性判别分析的算法原理为从几何角度让全体训练样本经过投影后异类样本的中心尽可能远,同类样本的方差尽可能小。对数几率回归的算法原理为在线性回归的基础上套一个映射函数来实现分类功能。经过投影后,异类样本的中心尽可能远,相对熵也叫KL散度,用于度量两种分布的差异。当估计值,至于怎么求,会的都会,不会的去学概率论。分别为广义瑞利商、类间散度矩阵、类内散度矩阵。对于单个样本而言,其理想分布为。对于线性回归,可假设其模型为。个独立同分布样本,其联合概率(密度)为。不确定性的量,其越大越不确定。

2023-09-17 13:58:29 108

原创 机器学习西瓜书和南瓜书第1、2章学习笔记

标记:机器学习的本质就是在学习样本在某方面的表现是否存在潜在的规律,我们称该方面的信息为标记。数据决定模型的上限:数据量角度,数据越多,模型效果越好,那么算出来的结果越准确;特征工程角度,特征数字越合理,特征收集越全,模型效果越好,那么算出来的结果也会越准确。我们可以通过实验测试来对学习器的泛化误差进行评估进而做出选择,需使用一个测试集测试学习器对新样本的判别能力,以测试集上的测试误差作为泛化误差的近似。2.将样本分为训练样本和测试样本,训练样本构成的集合为训练集,测试样本构成的集合为测试集;

2023-09-12 13:22:47 168 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除