![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习数学原理
Sunny_Jie
悄点儿,我思慕思慕。
展开
-
卷积层如何反向求导
通常我们在进行卷积的运算时,只考虑正向运算,似乎我们对卷积的正向运算非常了解。但是机器学习或者是深度学习的关键在于参数优化,而优化势必要反向运算,即损失函数对各个层级的参数进行求偏导。如果是如果是传统的机器学习,由于他的链路比较短,所以反向求导似乎很容易想象、很容易理解。而一旦切换到深度学习的阵营,我们对于反向求导似乎不怎么考虑,因为各种深度学习框架早已内置了各种反向求导机制,我们只管设计深度卷积...原创 2020-03-28 21:37:15 · 2869 阅读 · 0 评论 -
卷积的全面理解及其与互相关的关系
卷积的连续形式:(f∗g)(x)=∫−∞+∞f(τ)g(x−τ)dτ({\rm f}*{\rm g})(x)=\int^{+\infty}_{-\infty}{\rm f}(\tau){\rm g}(x-\tau){\rm d}\tau(f∗g)(x)=∫−∞+∞f(τ)g(x−τ)dτ卷积的离散形式:(f∗g)(x)=∑τ=−∞+∞f(τ)g(x−τ)({\rm f}*{\rm g})...原创 2019-11-11 15:00:30 · 4733 阅读 · 0 评论 -
凸优化正戏
优化问题的基本形式(这里没有凸)minimizef0(x)x∈Rn{\rm minimize}\quad f_0(\bm x) \quad \bm x\in\mathbb R^nminimizef0(x)x∈Rn subject tofi(x)≤0,i=1,⋯ ,mhj(x)=0,j=1,⋯ ,p\quad\quad\quad\...原创 2019-07-28 15:43:14 · 175 阅读 · 0 评论 -
Gram矩阵和核函数
Gram矩阵定义内积空间中的一组向量v1,v2,⋯ ,vn\bm v_1,\bm v_2,\cdots,\bm v_nv1,v2,⋯,vn的Gram矩阵是内积的Hermitian矩阵(复共轭对称矩阵AH=AA^H=AAH=A),定义为:Gij=⟨vi,vj⟩{\rm G}_{ij}=\langle\bm v_i,\bm v_j\rangleGij=⟨vi...原创 2019-07-28 22:28:04 · 4294 阅读 · 1 评论 -
概率公式、条件熵、交叉熵、相对熵、互信息
搞清概念是学习的重点工作,其实知识就是由一个又一个宝贵的概念堆叠出来的。概率公式条件概率:P(A∣B)=P(A,B)P(B)P(A|B)=\frac{P(A,B)}{P(B)}P(A∣B)=P(B)P(A,B)全概率公式:P(A)=∑BiP(A,Bi)=∑BiP(A∣Bi)P(Bi)P(A)=\sum_{B_i}P(A,B_i)=\sum_{B_i}P(A|B_i)P(B_i)P(A...转载 2019-08-02 23:26:23 · 924 阅读 · 0 评论 -
凸优化——前戏
凸优化的内容较多,不打算一次编辑完,先把“几何体的表达”以及“仿射集和凸集”梳理清楚。几何体的向量表达(铺路)给定二维平面上两个定点:a(u1,v2),b(u1,v2)\bm a(u_1,v_2),\bm b(u_1,v_2)a(u1,v2),b(u1,v2),则:直线:x⃗=θ⋅a⃗+(1−θ)b⃗,θ∈R\vec{x}=\theta·\vec{a}+(1-\theta)\vec...转载 2019-07-21 17:54:11 · 254 阅读 · 0 评论 -
内积空间,赋范空间和Hilbert空间
引言:我们通常说某某某,不加定义的说一些事情是因为我们之间约定俗成了一些背景、一些底色。比方说:“人总有一死,或重于泰山,或轻于鸿毛”,这句话之所以成立,是因为在现阶段,我们基于对过去历史的总结和对于世间万物的观察所得出的结论,这其实就是我们说那句话的背景或者是底色。但是游戏中的人就不是人吗,他能被虚拟世界创造出来,他能在虚拟世界中生长,他可以说话,他可以战斗,他可以喜怒哀乐,他也可能由于种...原创 2019-07-21 12:02:29 · 1679 阅读 · 0 评论 -
向量空间和线性映射
向量空间向量空间需满足的几点要求:闭合性(closure properties)加法的闭合性,即该向量空间V\bm VV内的任意两个向量相加还在该向量空间V\bm VV内。(closure for addition)数乘的闭合性,即标量域SSS的数与向量空间V\bm VV中的向量在数乘之后得到的向量依然在该向量空间V\bm VV中。(closure for scalar multipl...原创 2019-07-20 18:04:51 · 2571 阅读 · 0 评论 -
空间解析几何与向量代数
一. 向量及其线性运算模长等于111的向量称为单位向量。向量的线性运算: ①加法;②数乘:λα⃗=(λax,λay,λaz)\lambda\vec{\alpha}=(\lambda a_x,\lambda a_y,\lambda a_z)λα=(λax,λay,λaz)。二. 数量积、向量积、混合积1. 两向量的数量积(也称“点乘”或“内积”)数量积,即积完之后是一个数。几...原创 2019-07-17 17:14:08 · 3191 阅读 · 0 评论 -
基于误差反传的多层感知器——BP神经网络
BP算法的基本思想是,学习过程由信号的正向传播与误差的反向传播两个过程组成。1. BP网络模型我们以单隐层感知器为例进行BP网络模型的说明,一般习惯将单隐层感知器称为三层感知器,所谓三层包括了输入层,隐层和输出层。三层感知器中,输入向量为X=(x1,x2,⋯ ,xi,⋯ ,xn)T\bm X=(x_1,x_2,\cdots,x_i,...原创 2019-07-17 17:04:07 · 1145 阅读 · 0 评论 -
线性回归
线性回归其实核心就是:用线性函数或多项式函数建立一个模型,这个模型的建立必须要有数据集,这是建立的根据,建立模型的数据叫做训练数据,训练好了我们还要测试,进而评价这么模型是否建立得当,评价这个模型建立的好与坏的数据集叫做测试集。训练模型的关键在于使得预测值尽量接近真实值,误差是不可避免的,避免误差的后果可以确切的说就是过拟合,即便在训练集上误差不为零,但是误差很小也有可能出现过拟合,所以不要一味...原创 2019-07-01 12:14:38 · 396 阅读 · 0 评论 -
逻辑斯蒂回归的代价函数
Logistic回归的代价函数J(θ)=−1m[∑i=1my(i)log hθ(x(i))+(1−y(i))log(1−hθ(x(i)))]J(\theta)=-\frac{1}{m}\left[\sum^m_{i=1}y^{(i)}log\ h_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))\right]J(θ)=−m1[i=...原创 2019-07-05 18:36:42 · 395 阅读 · 0 评论 -
决策树算法
决策树是怎么回事?其实就是对实例进行分类的树形结构。决策树由节点(node)和有向边(directed edge)组成。节点包括内部节点(internal node)和叶节点(leaf node)。内部节点表示一个属性或特征,叶结点表示一个类。这是一个非常简单的分类器,关于它更细致的描述这里就不再赘述,我们谈论几个要点:熵(entropy)、条件熵、Gini系数、预剪枝和后剪枝,连续值属性的处...转载 2019-07-09 17:33:09 · 174 阅读 · 0 评论 -
Jacobian矩阵和梯度矩阵
关于矩阵的内容其实是非常多的,庞杂而臃肿,总结起来也是耗时耗力,从有限时间的角度来讲,追求全面就如同夸父逐日,精神可嘉,但是方法愚拙,收效甚微;我们应该掌握的是Lineal Algebra里最基本,最原始的知识要点,有了这一些元知,其他高阶东西在我们用到的时候打补丁自然也会轻松不少。本篇文章记录的仍然是Jacobian矩阵和梯度矩阵这样的元类知识,为以后的学习打好基础。原创 2019-06-24 18:28:30 · 8580 阅读 · 5 评论 -
实变函数无约束优化的梯度分析
典型的优化问题minx∈Df(x)\underset{\bm x\in \mathcal D}{min}f(\bm x)x∈Dminf(x)其中,D=domf(x)\mathcal{D}=dom f(\bm x)D=domf(x)表示函数f(x)f(\bm x)f(x)的定义域;变元向量x∈Rn\bm x \in\mathbb{R}^nx∈Rn称为最优化问题的优化向量,代表需要作出的一种选择...原创 2019-06-25 13:48:09 · 226 阅读 · 0 评论