![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
白板推导系列笔记
文章平均质量分 85
return bool(1)
遁入尘烟
展开
-
XGBoost-XGBoost objective 参数部分选项解释
Multi:softprob:和 softmax 相同,但是输出一个样本数量 * 类别数量的向量,该向量会被 reshape 为样本数量 * 类别数量的矩阵。Multi:softmax:让 XGBoost 使用 softmax 作为目标函数执行多分类,你需要这顶 num_classes(类别的数量)Binary:logitraw:二分类逻辑回归,输出使用逻辑回归转化前(sigmoid 函数)的分数。首先 objective 是目标函数的意思,也就是建模的时候,需要最小化的函数。,此时对于新的样本直接使用。原创 2023-02-28 11:32:32 · 691 阅读 · 0 评论 -
【白板推导系列笔记】核方法-正定核-两个定义&必要性证明
实际上这个是充要的,在统计学习方法中有证明,也就说明了两个定义是等价的,这里只证明必要性。是指Hilbert空间:完备的。可能是无限维的、被赋予内积的线性空间。被赋予内积的,要求该空间具有对称性、正定性、线性,对应满足公式。又根据内积具有对称性质(Hilbert空间定义的),即。完备的,可以理解为对极限是封闭的,即对于。是Gram矩阵的代号,第二个。再证Gram矩阵半正定,即证。Gram矩阵半正定,且。原创 2022-10-08 10:11:46 · 426 阅读 · 0 评论 -
【白板推导系列笔记】核方法-背景介绍
显然异或问题中的数据不是线性可分的,但我们可以将数据映射到高位空间来实现线性可分,因此我们需要寻找一个非线性的。核方法可以用于非线性带来的高维转换(从模型角度),对偶表示带来内积(从优化角度)如果我们把这里的原数据映射到高维空间实现线性可分,则问题转化为。有时分类数据是完全不可分的,例如异或问题,即数据集为。这里关于核函数的定义先看看就行,后面会有更精确的定义。显然在新的空间中,新数据可以实现线性可分。,这个计算量是很大的,因此我们引出核函数。映射到成高维空间的数据。,从而实现新的数据集。原创 2022-10-07 08:09:48 · 231 阅读 · 0 评论 -
【白板推导系列笔记】支持向量机-软间隔SVM-模型定义
我们的训练数据通常不是理想的线性可分,有时甚至是线性不可分的数据。再考虑loss为支持向量另一侧的向量以及误分类的向量到过支持向量平行于超平面的距离的和,即。最简单的想法,我们可以让loss为支持向量另一侧的向量以及误分类的向量,即。显然这个函数是不连续的,因此是不可导的,不利于优化求解,因此不使用这种方法。可以理解为向量到过支持向量平行于超平面的距离),因此上式转化为。转化成这个式子每一步都能看懂,但总觉得自己哪里没理解。求解在《统计机器学习》里面有,可以去看看。也被称为合页损失函数,如下图。原创 2022-10-07 08:07:54 · 227 阅读 · 0 评论 -
【白板推导系列笔记】支持向量机-约束优化问题-弱对偶性证明
后面还有对偶关系之几何解释、对偶关系之slater condition、对偶关系之KKT条件,以后会补上的。简单来说,引入拉格朗日乘子是为了强制要求所有的约束条件必须被满足,的值域,值域里面的任何一个数,必然是大于等于它对。这个函数,我们知道下面这个不等式一定成立。引入拉格朗日乘子后,得到拉格朗日函数。所谓弱对偶性,指的是对偶问题。的最小值,小于等于它对。原创 2022-10-06 18:41:30 · 360 阅读 · 0 评论 -
【白板推导系列笔记】支持向量机-硬间隔SVM-模型求解-引出对偶问题&引出KKT条件
{min ω,b12ωTωs.t.yi(ωTxi+b)≥1⇔1−yi(ωTxi+b)≤0,i=1,2,⋯ ,N⏟N个约束\left\{\begin{aligned}&\mathop{\text{min }}\limits_{\omega,b} \frac{1}{2}\omega^{T}\omega\\&s.t.y_{i}(\omega^{T}x_{i}+b)\geq 1\Leftrightarrow 1-y_{i}(\omega^{T}x_{i}+b)\leq 0,\underbrace{i=1,2,\c原创 2022-10-06 18:39:57 · 364 阅读 · 0 评论 -
【白板推导系列笔记】支持向量机-硬间隔SVM-模型定义
假如数据是完全的线性可分的,那么学习到的模型可以称为硬间隔支持向量机。换个说法,硬间隔指的就是完全分类准确,不能存在分类错误的情况。在感知机算法中,如果两类线性可分,一般情况下,会存在无穷多条线。在SVM中,一个超平面,不仅能将数据正确分类,而且这个超平面到不同类之间距离最大。这里的margin是指数据集中离超平面最近的点到超平面的距离,因此,上式等价于。因此我们就可以在数据集线性可分的任何情况下,令。因此,最大化数据到超平面的间隔就可以被表达为。,因此最大化数据到超平面的间隔就可以被表达为。原创 2022-10-05 09:28:44 · 315 阅读 · 0 评论 -
【白板推导系列笔记】降维-主成分分析-概率角度(Probabilistic PCA)
PPCA假设所有的样本点取自某个分布X∈RpX \in \mathbb{R}^{p}X∈Rp,对应的每个点xix_{i}xi,都有一个ziz_{i}zi与之对应,取样与某个分布Z∈Rq(q原创 2022-10-05 09:27:00 · 636 阅读 · 0 评论 -
【白板推导系列笔记】降维-SVD角度看PCA和PCoA
前一节说明了重构特征空间找什么方向的向量,本节讲的是如何重构特征空间,即通过特征分解(SVD),因此对于小样本量的数据集我们常采用PCoA的方法。的特征值分解也被称为主坐标分析PCoA。这里需要说明的是,由于PCA的对象是。进行SVD可以直接得到新的坐标。,即方向、主成分,然后通过。对于中心化的数据矩阵。那么我们对协方差矩阵。进行SDV就可以得到。,而PCoA的对象是。原创 2022-10-04 07:58:41 · 468 阅读 · 0 评论 -
【白板推导系列笔记】降维-PCA-最大投影方差&最小重构代价
PCA的核心就是对原始特征空间的重构(将一组可能线性相关的变量,通过正交变换变换成一组线性无关的变量)两个基本的要求是最大投影方差(即找到的投影方向对于数据集投影方差最大),最小重构代价(即降维所得到的新数据与原数据相比,信息损失最小)X=(x1x2⋯xN)N×pT=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋮xN1xN2⋯xNP)N×pxi∈Rp,i=1,2,⋯ ,N记1N=(11⋮1)N×1xˉ=1NXT1N,S=1NXTHX\begin{gathered}X=\be原创 2022-10-04 07:56:33 · 685 阅读 · 0 评论 -
【白板推导系列笔记】降维-背景
也就是在球壳内部是几乎没有体积的,这也能说明在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏。解决过拟合问题有三种思路:加数据、正则化、降维,降维的思路来自于维度灾难。也就是,在高维空间中的数据点大多分布在立方体的边缘,数据集更加稀疏。的超球体间球壳的体积之差,发现二者体积都为。,对应超正方体,我们可以认为它的体积为。的超球体的体积,以及该超球体与半径为。,对应最大内接圆的面积为。,对应最大内接球的体积为。已知一个正方形边长为。原创 2022-10-03 08:10:08 · 357 阅读 · 0 评论 -
【白板推导系列笔记】降维-样本均值&样本方差矩阵
X=(x1x2⋯xN)N×pT=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋮xN1xN2⋯xNP)N×pxi∈Rp,i=1,2,⋯ ,N记1N=(11⋮1)N×1\begin{gathered}X=\begin{pmatrix}x_{1} & x_{2} & \cdots & x_{N}\end{pmatrix}^{T}_{N \times p}=\begin{pmatrix}x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T原创 2022-10-03 08:08:11 · 420 阅读 · 0 评论 -
【白板推导系列笔记】线性分类-朴素贝叶斯分类器(Naive Bayes Classifer)
在这个分类器中我们可以用单词向量作为输入特征,具体的,我们的单词书中如果一共有50000个词,那么一封邮件的x向量可以是。,对如此多的参数进行估计是不现实的,所以我们做一个强假设来简化概率模型。朴素贝叶斯是对数据属性之间的关系进行了假设,即各个属性维度之间独立。常常服从于类别分布,实际上思路相同,只是估计参数变多,这里不进行推导。维的向量,在这封邮件中如果存在字典中的词,那该词所在的位置设置为。朴素贝叶斯假设每一个维度都是独立的,则有。这里的指示函数在GDA中有类似的代替,即。原创 2022-10-02 09:31:55 · 488 阅读 · 0 评论 -
【白板推导系列笔记】线性分类-高斯判别分析(Gaussian Discriminant Analysis)-模型求解(求期望)&模型求解(求协方差)
L(μ1,μ2,Σ,ϕ)=∑i=1N[logN(μ1,Σ)yi⏟(1)+logN(μ2,Σ)1−yi⏟(2)+logϕyi(1−ϕ)1−yi⏟(3)]L(\mu_{1},\mu_{2},\Sigma,\phi)=\sum\limits_{i=1}^{N}[\underbrace{\log N(\mu_{1},\Sigma)^{y_{i}}}_{(1)}+\underbrace{\log N(\mu_{2},\Sigma)^{1-y_{i}}}_{(2)}+\underbrace{\log \phi^原创 2022-10-02 09:30:34 · 255 阅读 · 0 评论 -
【白板推导系列笔记】线性分类-高斯判别分析(Gaussian Discriminant Analysis)-模型定义
建模,而高斯判别分析作为概率生成模型,是通过引入类型的先验,通过贝叶斯公式,得到联合分布。高斯判别分析我们对数据集作出的假设有,类的先验是二项分布,每一类的似然是高斯分布,即。的大小关系,因此不需要关注分母,因为二者是一样的,即。,再对联合分布的对数似然得到参数。原创 2022-10-01 15:56:55 · 451 阅读 · 0 评论 -
【白板推导系列笔记】线性分类-逻辑回归(Logistic Regression)
{(xi,yi)}i=1N,xi∈Rp,yi∈{0,1}\begin{gathered}\left\{(x_{i},y_{i})\right\}_{i=1}^{N},x_{i}\in \mathbb{R}^{p},y_{i}\in \left\{0,1\right\}\end{gathered}{(xi,yi)}i=1N,xi∈Rp,yi∈{0,1}逻辑回归作为线性分类中的软输出,相对于硬输出,输出结果为yyy为各值的概率,总体思路与硬输出是相同的,即线性回归→线性分类ωTx→激活函原创 2022-10-01 10:05:01 · 412 阅读 · 0 评论 -
【白板推导系列笔记】线性分类-线性判别分析(Fisher)-模型定义
线性判别分析的思想是,找的一个方向ω\omegaω,将样本向这个方向做投影,投影后的数据尽可能的满足总结为类内小,类间大X=(x1x2⋯xN)T=(x1Tx2T⋮xNT)N×p,Y=(y1y2⋮yN)N×1{(xi,yi)}i=1N,xi∈Rp,yi∈{+1,−1}xC1={xi∣yi=+1},xC2={xi∣yi=−1}∣xC1∣=N1,∣xC2∣=N2,N1+N2=N\begin{gathered}X=\begin{pmatrix}x_{1} & x_{2} & \cdots & x_{N}\原创 2022-09-30 17:19:30 · 354 阅读 · 0 评论 -
【白板推导系列笔记】线性分类-背景&感知机
就可以把线性回归的结果映射到两个分类结果上了。如果定义随时函数为错误分类的数目,即。显然该函数是不可导的,因此定义。为错误分类的集合,每次更新。采用梯度下降的算法,上式对。原创 2022-09-30 15:29:51 · 364 阅读 · 0 评论 -
【白板推导系列笔记】线性回归-正则化-岭回归-频率角度
如果在我们知道⽔果的种类之前,有⼈问我们哪个盒⼦被选中,那么我们能够得到的最多的信息就是概率p(B)。同时也发现,在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差,而增加了正则项后,最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解,加上 L1 正则项后,等价于 Laplace 噪声先验。这个结果与我们的直觉相符,因为红盒⼦中橘⼦的⽐例⽐蓝盒⼦⾼得多,因此观察到⽔果是橘⼦这件事提供给我们更强的证据来选择红盒⼦。然⽽,⼀旦我们观察到选择的⽔果是橘⼦,我们发现红盒⼦的后验概率现在是。原创 2022-09-29 10:17:01 · 330 阅读 · 0 评论 -
【白板推导系列笔记】线性回归-最小二乘法及其几何意义&最小二乘法-概率视角-高斯噪声-MLE
D={(x1,y1),(x2,y2),⋯ ,(xN,yN)}xi∈Rp,yi∈R,i=1,2,⋯ ,NX=(x1x2⋯xN)T=(x1Tx2T⋮xNT)=(x11x12⋯x1px21x22⋯x2p⋮⋮⋮xN1xN2⋯xNp)N×pY=(y1y2⋮yN)N×1\begin{gathered}D=\left\{(x_{1},y_{1}),(x_{2},y_{2}),\cdots ,(x_{N},y_{N})\right\}\\x_{i}\in \mathbb{R}^{p},y_{i}\in \mathbb原创 2022-09-28 22:02:36 · 405 阅读 · 0 评论 -
【白板推导系列笔记】数学基础-概率-高斯分布-求联合概率分布
X∼N(μ,Σ)=1(2π)p2∣Σ∣12exp(−12(x−μ)TΣ−1(x−μ))x∈Rp,r.v.\begin{gathered}X \sim N(\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp}\left(- \frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)\right)\\x \in \mathbb{R}^{p},r.v.\\\end{gathered}X∼原创 2022-09-28 07:49:36 · 295 阅读 · 0 评论 -
【白板推导系列笔记】数学基础-概率-高斯分布-求边缘概率以及条件概率
X∼N(μ,Σ)=1(2π)p2∣Σ∣12exp(−12(x−μ)TΣ−1(x−μ))x∈Rp,r.v.\begin{gathered}X \sim N(\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\text{exp}\left(- \frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)\right)\\x \in \mathbb{R}^{p},r.v.\\\end{gathered}X∼原创 2022-09-26 22:14:46 · 355 阅读 · 0 评论 -
【白板推导系列笔记】数学基础-概率-高斯分布-从概率密度角度观察&局限性
如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。对于一个均值为μ,协方差矩阵为Σ的多变量向量,其马氏距离为。下面我们看多维高斯模型在实际应用时的两个问题。的方向上的投影,因此椭圆一般是有旋转的(这。是正定的,显然可以进行特征值分解,有。都是常数,那么其图像就是一个椭圆。是半正定的,这里假设是正定的。如果取定一个概率值,又因为。显然这符合椭圆方程,又有。,也就是说椭圆中心移动了。,则该椭圆没有旋转;轴的交点即原点处,因为。,因此是正交的),如果。原创 2022-09-25 21:25:12 · 407 阅读 · 0 评论 -
【白板推导系列笔记】数学基础-概率-高斯分布-极大似然估计&极大似然估计-有偏VS无偏
Data:X=(x1,x2,⋯ ,xN)T=(x1Tx2T⋮xNT)N×p,xi∈Rp,xi∼iidN(μ,Σ)MLE:θMLE=argmaxθP(X∣θ),θ=(μ,Σ)\begin{gathered}\text{Data}:X=(x_{1},x_{2},\cdots,x_{N})^{T}=\begin{pmatrix}x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T}\end{pmatrix}_{N \times p},x_{i} \in \mathbb原创 2022-09-24 21:23:28 · 358 阅读 · 0 评论