![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Data Science:数学分析
文章平均质量分 50
图灵的猫.
给行业以ai,而不是给ai以行业
展开
-
优化算法中的鞍点与梯度下降
摘要:本文将讨论寻找凸路径( convex path )时可能会遇到的不同类型的临界点( critical points),特别是基于梯度下降的简单启发式学习方法,在很多情形下会使你在多项式时间内陷入局部最小值( local minimum ) 。凸函数比较简单——它们通常只有一个局部最小值。非凸函数则更加复杂。在这篇文章中,我们将讨论不同类型的临界点( critical points)翻译 2017-12-25 19:44:10 · 12001 阅读 · 1 评论 -
常微分方程:初值问题与边值问题
初值问题是微分方程的初始条件,即自变量为零时的函数值;边值问题则是方程的边界条件,即自变量取某一值对应的函数值。对于一阶方程,往往只需要初始条件就可以得到方程的特解,对于二阶或者二阶以上的微分方程,则需要边界条件。原创 2018-04-12 13:45:04 · 28116 阅读 · 0 评论 -
三段话搞明白什么是Krylov子空间迭代法
Krylov方法是一种 “降维打击” 手段,有利有弊。其特点一是牺牲了精度换取了速度,二是在没有办法求解大型稀疏矩阵时,他给出了一种办法,虽然不精确。假设你有一个线性方程组:其中A是已知矩阵,b是已知向量,x是需要求解的未知向量。当你有这么个问题需要解决时,一般的思路是直接求A的逆矩阵,然后x就出来了:但是,如果A的维度很高,比方说1000*1000的矩阵,那么A就是一个大型...转载 2018-04-12 14:33:55 · 34731 阅读 · 14 评论 -
什么是龙格现象(Runge phenomenon)?如何避免龙格现象?
例如,在事先不知道某一函数的具体形式的情况下,只能测量得知某一些分散的函数值。在《计算方法》和《计算机图形学基础》中讲到插值(线性插值、抛物线插值、高次lagrang插值)的拟合度,在三种自由曲线的图形中,是上升趋势,我们总以为次数越高精度越高,实际上,当点数n 增大(次数m=n-1 也增大)时,有时会在两端产生激烈的震荡,出现函数不收敛的现象,即所谓的龙格现象。该函数被称为龙格函数,该函数有这么一个性质,就是你使用多项式插值来逼近,居然在次数越大的时候误差越大,这和一般的“次数越多越好”的常识有冲突了。原创 2018-04-06 18:04:45 · 47571 阅读 · 2 评论 -
简单区分单射、满射与双射
那么通俗的说,单射就是只能一对一,不能多对一,满射就是不论一对一,还是多对一,在映射f:X→Y中,Y中任一元素y都是X中某元素的像,也就是Y中所有元素在X中都能找到原像,至于找到的只有一个原像,那就是双射,但有的可以找到一个以上的那就不是双射,即双射就是既是单射又是满射。总之说的是一回事,没什么本质区别,只有联系。利用泛函分析中的定义,设f是集合m到M的一个映射,用f(m)代表m在映射下的像的全体,如果f(m)=M,则映射f就称满射。如果m中的元素的像一定不同,那么映射f就称单射。原创 2018-04-06 18:08:38 · 656577 阅读 · 3 评论 -
3分钟tips:泛函中,什么是开映像定理?
在泛函分析中,开映射定理是一个基本的结果,它说明如果巴拿赫空间之间的连续线性算子是满射的,那么它就是一个开映射。更加精确地:该定理的证明用到了贝尔纲定理,X和Y的完备性都是十分重要的。关于“满足开映象定理的算子的范数”, 这里如果说的是算子的范数, 条件要求"T是连续线性算子", 即T是有界线性算子, 所以||T||有界. 除此似乎没有其他的性质了。如果T可逆且是开映象,则T的逆映射是连续的,开映像定理就是讨论连续线性映射的逆映射什么时候是连续的。为了不牵扯到T的逆算子的存在性, 人们定义了开印象的概念.原创 2018-04-06 18:10:38 · 2926 阅读 · 0 评论 -
3分钟tips:高斯分布和高斯积分的关系
众所周知,高斯积分在概率论和连续傅里叶变换等的统一化等计算中有广泛的应用。虽然误差函数没有初等函数,但是高斯积分可以通过微积分学的手段解析求解。将高斯函数调整到高斯积分在概率论和连续傅里叶变换等的统一化等计算中有广泛的应用。而正态分布(又名高斯分布)是标准的一类位置-尺度族分布,且在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量X服从一个数学期望为μ、方差为σ^2的高斯分布,记为N(μ,σ^2)。此即正态分布函数,期望值μ决定了其位置,标准差σ决定了分布的幅度。原创 2018-04-06 18:20:39 · 9715 阅读 · 0 评论 -
如何直观理解拉格朗日乘子法与KKT条件
以前学习SVM时曾草草了解到过KKT条件,当然,关于KKT条件的前身也就是拉格朗日乘子法,是高数就接触过的。如今学习最优化理论,又碰到了他俩,不得不说是一种缘分,当然这两个概念也是机器学习算法中非常重要的,因为机器学习归根到底就是一种优化。接下来让我们来一起看看。原创 2018-05-02 16:37:13 · 5079 阅读 · 0 评论 -
聊聊机器学习中的损失函数(hinge/soft/square/0-1)
机器学习作为一种优化方法,学习目标就是找到优化的目标函数——损失函数和正则项的组合;有了目标函数的“正确的打开方式”,才能通过合适的机器学习算法求解优化。不同机器学习方法的损失函数有差异,合理理解各种损失优化函数的的特点更有利于我们对相关算法的理解。原创 2018-06-07 14:34:10 · 10692 阅读 · 2 评论 -
深度学习中的“卷积”与数学中的“卷积”有何不同
在乘数不大时这么干显得有点蛋疼,不过要计算很长很长的两个数乘积的话,这种处理方法就能派上用场了,因为你可以用快速傅立叶变换 FFT 来得到卷积,比示例里的硬乘要快。我们有的时候会希望跳出核中的一些位置来降低计算的开销(相应的代价是提取特征没有先前那么好了)我们就把这个过程看作对全卷积函数输出的。注意第二个等号右边每个括号里的系数构成的序列 (14,34,14,4),实际上就是序列 (2,4) 和 (7,3,1) 的卷积。两个多项式乘积的在基上展开的系数就是两个多项式各自在基上展开系数的卷积。原创 2018-08-13 19:40:37 · 6824 阅读 · 0 评论 -
小学生都能听懂的傅里叶变换讲解
从我们出生,我们看到的世界都以时间贯穿,股票的走势、人的身高、汽车的轨迹都会随着时间发生改变。这种以时间作为参照来观察动态世界的方法我们称其为时域分析。而我们也想当然的认为,世间万物都在随着时间不停的改变,并且永远不会静止下来。但如果我告诉你,用另一种方法来观察世界的话,你会发现世界是永恒不变的,你会不会觉得我疯了?我没有疯,这个静止的世界就叫做频域。在你的理解中,一段音乐是什么呢?这是我们对音乐最普遍的理解,一个随着时间变化的震动。但我相信对于乐器小能手们来说,音乐更直观的理解是这样的:好的!转载 2018-04-11 17:08:39 · 1813 阅读 · 0 评论 -
当我们在讨论机器学习时我们在说些什么?
众所周知,机器学习是个非常“交叉”的学科,其知识面跨度之广远超其他传统领域,但是大部分小伙伴对于机器学习的认识可能还仅仅停留在偏差误差,拟合和模型优化上,那么今天我们就通过一个经典的讨论答案,为大家简单讲一下机器学习的本来面目。机器学习的三个重要的东西,Hoeffding不等式,VC理论,以及这里要讲的泛函大数律,是学习的重要前提。首先,我们需要搞明白三件事情:什么是一个学习问题、什么是风险最小化...原创 2018-04-04 20:04:37 · 414 阅读 · 0 评论 -
距离,范数与相似度
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, … xn...原创 2018-02-14 20:04:04 · 2450 阅读 · 0 评论 -
机器学习中的数学(二):参数估计与似然函数(MLE)
如果事件(即生成数据的过程)是独立的,那么观察所有数据的总概率就是单独观察到每个数据点的概率的乘积(即边缘概率的乘积)。(因为我们只使用了 10 个数据点,做出这样的草率决定是不明智的,但考虑到我是用某个确定的分布函数生成这些数据点,我们就凑合着用吧)。但是,尽管这两个值是相等的,但是似然度和概率从根本上是提出了两个不同的问题——一个是关于数据的,另一个是关于参数值的。更有可能的是,在真实的场景中,对数似然函数的导数仍然是难以解析的(也就是说,很难甚至不可能人工对函数求微分)。这两个表达式是相等的!原创 2018-02-18 22:20:52 · 4340 阅读 · 0 评论 -
为什么样本方差的分母是n-1?为什么它又叫做无偏估计?
为什么样本方差的分母是n-1?最简单的原因,是因为因为均值已经用了n个数的平均来做估计在求方差时,只有(n-1)个数和均值信息是不相关的。而你的第n个数已经可以由前(n-1)个数和均值 来唯一确定,实际上没有信息量。所以在计算方差时,只除以(n-1)。那么更严格的证明呢?请耐心的看下去。总体方差(variance):总体中变量离其平均值距离的平均。一组数据样本方差(v...原创 2018-03-20 22:38:49 · 84856 阅读 · 19 评论 -
3分钟tips:协方差和相关系数的异同
向量空间里面的东西没有“距离”这样的概念,对于一个向量空间里面的向量,甚至没有“长度”这样的概念,因为向量空间只是一个代数结构,没有度量或者拓扑的概念在其中,那这时候怎样度量向量的长度来呢?二者表示变量间的共变(相关)程度,协方差是变量x的离均差乘以y的离均差再求平均得到的统计量,虽然它可以表示x和y的共变程度,但x和y的单位可能不同,这样直接将二者的离均差相乘得到的结果可能偏差很大,因此有必要统一单位,即消去x和y的单位,做法就是给协方差再分别处以x、y各自的标准差,这样得到的统计量就是相关系数。原创 2018-03-20 23:07:39 · 1374 阅读 · 0 评论 -
谈谈数值分析中的插值(截断)误差,以牛顿法为例
在不少数值运算中常遇到超越计算,如微分、积分和无穷级数求和等,它们需用极限或无穷过程来求得。然而计算机却只能完成有限次算术运算和逻辑运算,因此需将解题过程化为一系列有限的算术运算和逻辑运算。这样就要对某种无穷过程进行“截断”,即仅保留无穷过程的前段有限序列而舍弃它的后段。这就带来了误差,称它为截断误差,因为截断误差是数值计算方法固有的,因此又称方法误差。由于实际运算只能完成有限项或有限步运算,因此要将有些需用极限或无穷过程进行的运算有限化,对无穷过程进行截断,这样产生的误差成为截断误差。原创 2018-04-08 19:23:26 · 17646 阅读 · 0 评论 -
三次样条插值之三对角矩阵算法
做三次样条曲线时,需要解三对角矩阵(Tridiagonal Matrices)。常用解法为Thomas Algorithm,又叫The tridiagonal matrix algorithm (TDMA)。它是一种基于高斯消元法的算法, 分为两个阶段:向前消元forward elimination和回代backward substitution。本文以一个6乘6矩阵为例,介绍一下使用TDMA的求解过程。原创 2018-04-08 20:46:37 · 2727 阅读 · 0 评论 -
离散傅里叶变换(DFT)与三角插值法
离散傅里叶变换(DFT)1. 标准正交基向量空间(或)的标准正交基满足以下两个条件:我们可以得到一个的标准正交基矩阵:再把每一个标准正交基对应的系数写成一个列向量:则信号的标准正交基表示:那么(这里,是指的共轭转置矩阵,不难证明)关键结论:对于一组标准正交基和标准正交基矩阵,对于任意的信号,我们有以下的表达:综合式:分析式: 或 综合式表明信号可以表示成标准正交基的线性组合。分析式给出了计算标准正...原创 2018-04-11 16:51:08 · 8475 阅读 · 1 评论 -
[R时间序列]ARMA模型如何分辨拖尾与截尾
截尾是指时间序列的自相关函数(ACF)或偏自相关函数(PACF)在某阶后均为0的性质(比如AR的PACF);拖尾是ACF或PACF并不在某阶后均为0的性质(比如AR的ACF)。对于AR和MA模型,其判断方法有所差异:p阶自回归模型 AR(P)AR(p)模型的偏自相关函数PACF在p阶之后应为零,称其具有截尾性;AR(p)模型的自相关函数ACF不能在某一步之后为零(截尾),而是按指数衰减(或成正弦波形式),称其具有拖尾性。q阶移动平均模型 MA(q)原创 2018-10-24 18:09:55 · 53436 阅读 · 3 评论