![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
西瓜书系列
文章平均质量分 93
不是吧这都有重名
所有灿烂时刻,最终都将以独行来偿还。
展开
-
[吃瓜教程]南瓜书第6章支持向量机
超平面是指在𝑛维空间中,维度为 𝑛−1的子空间。它是分割空间的一个平面。原创 2024-07-08 00:15:41 · 375 阅读 · 0 评论 -
[吃瓜教程]南瓜书第5章神经网络
为了解决线性不可分的数据集(其他的当个神经元的模型也可以结局线性不可分的数据集,只是感知机不可以),提出了由多个神经元构成的神经网络,且用通用近似定理可以证明:只需一个包含足够多神经元的隐层,多层前馈网络(最经典的神经网络之一)就能以任意精度逼近任意复杂度的连续函数。从几何的角度来说,给定一个线性可分的数据集T,感知机的学习目标是求得能对数据集T中的正负样本完全正确划分的超平面,其中。此时损失函数是非负的。如果没有误分类点,损失函数值为0.而且,误分类点越少,误分类点离超平面越近,损失函数值就越小。原创 2024-07-04 22:49:03 · 824 阅读 · 0 评论 -
[吃瓜教程]南瓜书第4章决策树
理解一下,我们希望我们划分出来的空间内的样本的y的概率越大越好,这样我们就把各个y的不同值划分的很好了,这就对应了信息熵中的期望信息熵最小的情况,因此可以用信息熵来表示集合内样本的纯度,信息熵越小样本的纯度越高。这里上下两部分的关系,其实下面的部分再更加具体的解释上面的式子。这里第二部分假设X是只有一个维度,也就是特征a,而随机变量X的取值,这里就是a的具体的取值会影响到Y的信息熵,也就是说,.当X的某个取值的概率为1时信息熵最小,值为0,当X的各个取值的概率均等时信息熵最大,最不缺定,其值为。原创 2024-07-01 18:44:06 · 690 阅读 · 0 评论 -
[吃瓜教程]南瓜书第3章二分类线性判别分析
*2.求拉格朗日函数的偏导数:**对所有变量求偏导数,并令这些偏导数等于零,得到一组方程。特别的,当B=I(单位矩阵)时,广义瑞利商退化为瑞利商。特别的,当B=I(单位矩阵)时,广义特征值问题退化为标准特征值问题。**1.构造拉格朗日函数:**将目标函数和约束条件结合,形成拉格朗日函数。分别表示反例集合和正例集合的均值向量与投影直线的夹角, 围绕上面思想中的。之间的线性关系的度量。为A相对于B 的广义特征值,x为A 相对于B的属于广义特征值。的离散程度的度量,表示数据点与均值之间的偏离程度。原创 2024-06-28 23:16:14 · 1013 阅读 · 0 评论 -
[吃瓜教程]南瓜书第3章对数几率回归
它通过拟合一个对数几率函数(logit function),即对数几率(log-odds)与输入变量的线性组合之间的关系,来预测一个事件发生的概率。其中,I(x)是事件x的自信息量,P(x)是事件x发生的概率,log 表示对数运算,可以是以2为底(通常用于信息论中的单位为比特)或以自然对数为底(单位为纳特,nats)。由于理想分布p(x)是未知但固定的分布(频率学派的角度),所以式子的前办部分是一个常量,那么最小化相对熵就等价于最小化交叉熵。3.算法:梯度下降,牛顿法(近似求解方法,没有闭式解)原创 2024-06-26 00:57:10 · 907 阅读 · 0 评论 -
[吃瓜教程]南瓜书第3章线性回归
最小二乘法(Least Squares Method, LSM)是一种统计方法,用于在数据拟合过程中找到最佳拟合函数,使得观测数据与拟合函数之间的误差平方和最小。,且f(x)在D上二阶连续可微,如果f(x)的Hessian(海塞)矩阵在D上是半正定的,则f(x)是D上的凸函数。因此通过求损失函数的海塞矩阵是否为半正定的即可证明该损失函数为凸函数,然后即可用凸函数求最值的思路解出w和b。在确定了问题的假设空间是线性空间后,我们就面临如何选取最优模型的策略,在目前的情况下就是去确定模型的参数。原创 2024-06-23 00:34:29 · 826 阅读 · 0 评论 -
[吃瓜教程]概览西瓜书+南瓜书第1、2章
1)机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。2)机器学习所研究的主要内容是关于在计算机上从数据中产生模型的算法,即“学习算法”。原创 2024-06-19 22:43:11 · 652 阅读 · 0 评论