数学知识
文章平均质量分 92
deep learning 中的各种零散数学知识
胤风
搞NLP的文青
展开
-
详解岭回归与L2正则化
最小二乘法存在不可逆和病态问题,导致解析解不可计算或不稳定,岭回归是一种有效的解决方法,以损失无偏性来换取稳定解, 本文介绍详细介绍了岭回归的基本原理,并从L2正则化角度来进行了解释。原创 2022-05-27 15:20:28 · 8362 阅读 · 12 评论 -
最小二乘法的原理理解
在上文一文让你彻底搞懂最小二乘法(超详细推导)中我们提到过,发明最小二乘法的勒让德认为,让误差的平方和最小估计出来的模型是最接近真实情形的(误差=真实值-理论值)。换句话说,勒让德认为最佳的拟合准则是使 yiy_{i}yi与 f(xi)f(x_{i})f(xi)的距离的平方和最小,即:L=∑i=1n(yi−f(xi))2L=\sum_{i=1}^{n}(y_{i}-f(x_i))^{2}L=i=1∑n(yi−f(xi))2这个准则也被称为最小二乘准则。勒让德在原文中提到:使误差平方和达到最小原创 2021-11-28 15:47:21 · 44749 阅读 · 15 评论 -
深入理解机器学习中的信息熵、KL散度、交叉熵
通用的说,熵(Entropy)被用于描述一个系统中的不确定性(the uncertainty of a system)。在不同领域熵有不同的解释,比如热力学的定义和信息论也不大相同。要想明白交叉熵(Cross Entropy)的意义,可以从熵(Entropy) -> KL散度(Kullback-Leibler Divergence) -> 交叉熵这个顺序入手。先给出一个“接地气但不严谨”的概念表述:熵:可以表示一个事件A的自信息量,也就是A包含多少信息。KL散度:可以用来表示从事件A的角转载 2020-07-20 23:18:09 · 766 阅读 · 0 评论 -
一文让你彻底搞懂主成成分分析PCA的原理及代码实现(超详细推导)
主成分分析(Principal components analysis)PCA是一个很重要的降维算法,可以用来降噪、消除冗余信息等,只要和数据打交道几乎是必学的。它需要一些前置知识,我自己学的时候总是一知半解,后来才知道是这些前置知识基础没打牢固,为了彻底搞明白,我另外写了几篇文章,理清了其中用到的一些知识,基础不好的同学可以先过一下:带你深入理解期望、方差、协方差的含义一文读懂特征值分解EVD与奇异值分解SVD引言首先先举个例子来认识一下数据。假设我们有一组二维数据(x,y),它的分布如下:原创 2020-07-20 14:46:47 · 6729 阅读 · 7 评论 -
一文读懂特征值分解EVD与奇异值分解SVD
这篇关于特征值和特征向量的内容是我用PCA的时候接触到的,本科学的东西早就记不得了orz,所以复习了一遍顺便做了一下梳理,这算是PCA的前置知识。特征值分解特征值与特征向量设 AAA 是 nnn 阶矩阵, 如果数λ\lambdaλ 和 nnn 维非零列向量 xxx 使关系式Ax=λxA x=\lambda xAx=λx成立,那么λ\lambdaλ 就称为矩阵 AAA 的特征值, xxx 称为AAA的对应于特征 值 λ\lambdaλ 的特征向量。注意有两个要素:(1)AAA是方阵(2)xxx是非原创 2020-07-13 15:35:46 · 1610 阅读 · 1 评论 -
一文让你彻底搞懂最小二乘法(超详细推导)
最小二乘法是一种最常用的解决回归问题的方法,它通过最小化误差的平方和来寻找 拟合数据的最佳匹配函数,本文详细介绍了最小二乘法的原理,并从几何角度解释了最小二乘法的几何意义原创 2020-06-03 15:25:41 · 241580 阅读 · 52 评论 -
推导余弦距离和欧式距离的关系
最近搞研究看到公式就头疼,哎,深深感受到数学不好就意味着被降维打击 O_o我还发现,在Deep Learning里,因为操作的对象是高维向量,所以很多paper里的公式都喜欢用矩阵乘来表达公式,这样的优点是公式表达更简洁(一个矩阵乘同时包含了乘法和加法),缺点就是菜的人可能一时半会反应不过来,比如说我!假设有两个 nnn 维向量 x,yx,yx,y ,x=(x1,x2,...,xn),y=(y1,y2,...,yn)x=(x_1, x_2, ..., x _n), y=(y_1, y_2, ..., y原创 2020-05-25 17:34:09 · 1213 阅读 · 0 评论 -
带你深入理解期望、方差、协方差的含义
基本概念为了能够更深刻的理解,这里先梳理一下概率论中的几个基本概念。事件事件指某种(或某些)情况的“陈述”,通俗来讲,事件就是一些case,比如A事件定义为,掷出偶数点=(2,4,6),这个case包含了多个结果,其中,每个结果叫做一个基本事件,一个事件是由若干基本事件构成的。由此可见,事件的本质是 集合。有了事件,自然就有事件之间的关系,因为事件的本质是集合,所以我们可以用集合的运算符号来表达事件之间的基本逻辑关系,基本关系有 :蕴含与相等:如果当A发生时B必发生 ,记A⊂BA\subset B原创 2020-05-21 16:46:35 · 14524 阅读 · 4 评论 -
协方差的意义
协方差其意义:度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。如果正相关,这个计算公式,每个样本对(Xi, Yi), 每个求和项大部分都是正数,即两个同方向偏离各自均值,而...转载 2020-05-19 15:47:56 · 2248 阅读 · 0 评论 -
相关系数——皮尔逊相关系数的公式及其理解
一些前置知识,期望、方差、协方差概念及其相关公式参见定义皮尔逊相关系数,简称相关系数,严格来说,应该称为“线性相关系数”。这是因为,相关系数只是刻画了X,Y之间的“线性”关系程度。换句话说,假如X与Y有其它的函数关系但非线性关系时,用相关系数来衡量是不合理的。相关系数定义为:ρX,Y=cov(X,Y)σXσY=E((X−μX)(Y−μY))σXσY=E(XY)−E(X)E(Y)E(X2)−E2(X)E(Y2)−E2(Y)\rho_{X, Y}=\frac{\operatorname{cov}(X,原创 2020-05-18 19:08:07 · 96909 阅读 · 1 评论 -
矩阵范数与向量范数的公式及其理解
矩阵是什么?我们都知道映射指的是一个空间 Rm\mathbb{R}^mRm到另一个空间 Rn\mathbb{R}^nRn的变换关系,狭义的函数其实是映射的一种特例,特指实数集间 R1\mathbb{R}^1R1的映射关系。在所有映射中,我们最常见的是线性映射,对这种线性映射关系,我们是用矩阵来刻画,比如我们要将一个向量x∈Rmx \in \mathbb{R}^mx∈Rm映射到另外一个空间Rn\...原创 2020-05-07 18:47:57 · 6887 阅读 · 0 评论 -
一文让你通俗易懂的理解正交变换和正交矩阵
分原创 2020-04-12 18:16:16 · 47054 阅读 · 15 评论 -
奇异值分解(SVD)原理详解及推导
在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充的,特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章,叫A Singularly Valuable Decomposition The SVD of a Matrix,觉得分析的特别好,把矩阵和空间关系对应了起来。本文就参考了该文并结合矩阵的相关知识把SVD原理梳理一下。 ...转载 2020-04-10 20:28:03 · 576 阅读 · 0 评论