机器学习数学
GoodShot
这个作者很懒,什么都没留下…
展开
-
统计学三大相关系数之皮尔森(pearson)相关系数
最早接触pearson相关系数时,是和同学一起搞数学建模,当时也是需要一种方法评价两组数据之间的相关性,于是找到了皮尔森(pearson)相关系数和斯皮尔曼(spearman)相关系数。其实,还有一种相关系数肯德尔(kendall)相关系数。在这三大相关系数中,spearman和kendall属于等级相关系数亦称为“秩相关系数”,是反映等级相关程度的统计分析指标。今天暂时用不到,所以现在只做pea...转载 2018-06-19 17:06:20 · 7522 阅读 · 1 评论 -
终于明白协方差的意义了
协方差其意义:度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。如果正相关,这个计算公式,每个样本对(Xi, Yi), 每个求和项大部分都是正数,即两个同方向偏离各自均值,而不同时偏离的也有,但是少,这样当样本多时,总和结果为正。下面这个图就很直观。下面转载自:http...原创 2018-04-14 16:44:53 · 178509 阅读 · 31 评论 -
常见向量范数和矩阵范数
1、向量范数1-范数:,即向量元素绝对值之和,matlab调用函数norm(x, 1) 。2-范数:,Euclid范数(欧几里得范数,常用计算向量长度),即向量元素绝对值的平方和再开方,matlab调用函数norm(x, 2)。∞-范数:,即所有向量元素绝对值中的最大值,matlab调用函数norm(x, inf)。-∞-范数:,即所有向量元素绝对值中的最小值,matlab调用函数norm(x, ...转载 2018-03-27 09:51:45 · 671 阅读 · 0 评论 -
如何理解张量tensor
1 关于张量的四种定义“张量”在不同的运用场景下有不同的定义。第一个定义,张量是多维数组,这个定义常见于各种人工智能软件。听起来还好理解。--本文仅解释此种2 多维数组从第一个定义:张量是多维数组开始。现在机器学习很火,知名开源框架tensor-flow是这么定义tensor(张量)的:A tensor is a generalization of vectors and matrices to ...原创 2018-03-26 12:58:13 · 858 阅读 · 0 评论 -
数学-矩阵计算(4)两种布局
之前会发现在有的求导上最后结果需要转置,而有的不需要,很困惑,然后才发现了这个维基上面的解释(这才是写该博文的主要价值,注意到不同的布局问题,其他部分只是为了完整性而写的),而且下面也有很多很不错的参考链接,其中就有之前的矩阵计算(2)和矩阵计算(3)的链接。维基最后更新时间:17 April 2015, at 21:34.matrix calculus 在数学上, 矩阵微积分是用来表示多变...转载 2018-03-13 15:45:41 · 1973 阅读 · 1 评论 -
线性映射和线性变换的区别
线性映射(linear map),是从一个向量空间V到另一个向量空间W的映射且保持加法运算和数量乘法运算。线性映射总是把线性子空间变为线性子空间,但是维数可能降低。而线性变换(linear transformation)是线性空间V到其自身的线性映射 线性空间V到自身的映射通常称为V上的一个变换。 同时具有以下定义: 线性空间V上的一个变换A称为线性变换,如果对于V中任意的元素α...原创 2018-03-13 15:45:47 · 25344 阅读 · 2 评论 -
数学-矩阵计算(2)矩阵函数微积分前奏
矩阵微积分会涉及到对矩阵函数操作的规则。例如,假设将一个m×n 的矩阵 X 映射到一个p×q 的矩阵 Y 中。而我们期望获得的导数表达式如下:对于所有的 i,j 和k,l 来说,这里主要的困难在于如何将对矩阵内的元素对应的求导,我们在矩阵计算(1)中最后有关矩阵对矩阵的求导,可是如果矩阵过大,那就非人力可以为之了,所以,为了更好的计算,就需要将矩阵的求导上升到一个较高的抽象的层面。 在矩阵...转载 2018-03-13 11:23:59 · 3654 阅读 · 0 评论 -
数学-矩阵计算(1)矩阵和向量的求导法则
机器学习、模式识别等领域,都是需要借助数学的,所以对于数学的理解和运用是十分重要的,这里先转载网上暂时找到的矩阵求导的一小部分。成长路漫漫,多学一点,就能更加接近自己的梦想!矩阵分四个博文介绍,这里是第一个。下面的(一部分)来自某个pdf中,因为不知道出处,所以也就没法引用了。见谅!一、矩阵的元素级别求导1.1 行向量对元素求导设是 n 维行向量,x 是元素,那么:1.2 列向量对元素求导...转载 2018-03-13 11:22:40 · 491 阅读 · 0 评论 -
数据标准化/归一化normalization
参考:https://blog.csdn.net/GoodShot/article/details/79925164这里主要讲连续型特征归一化的常用方法。离散参考[数据预处理:独热编码(One-Hot Encoding)]。基础知识参考:[均值、方差与协方差矩阵 ][矩阵论:向量范数和矩阵范数 ]数据的标准化(normalization)和归一化 数据的标准化(normalization)是...转载 2018-03-08 19:20:53 · 37114 阅读 · 1 评论 -
约束优化方法之拉格朗日乘子法与KKT条件
转载自:http://www.cnblogs.com/ooon/p/5721119.html参考我的博客:http://blog.csdn.net/GoodShot/article/details/79506493引言本篇文章将详解带有约束条件的最优化问题,约束条件分为1)等式约束与2)不等式约束,对于等式约束的优化问题,可以直接应用拉格朗日乘子法去求取最优值;对于含有不等式约束的优化问题,可以转...转载 2018-01-25 16:25:13 · 612 阅读 · 0 评论 -
矩阵求导
矩阵求导 属于 矩阵计算,应该查找 Matrix Calculus 的文献:http://www.psi.toronto.edu/matrix/intro.html#Introhttp://www.psi.toronto.edu/matrix/calculus.htmlhttp://www.stanford.edu/~dattorro/matrixcalc.pdfhttp://www.colora...原创 2018-01-26 23:32:29 · 430 阅读 · 1 评论 -
有关l2,1范数作用的理解--正则化项作用,不同于l1范数(矩阵元素绝对值之和)的稀疏要求,l21范数还要求行稀疏
今天和导师讨论问题的时候,说到了l21范数。导数希望我能解释一下,我明白它的作用可是我知道我没有向老师解释清楚,有些失落。今晚就自己总结一下吧,希望下次再有人问我这个问题的时候我能向别人解释清楚。先看上面l21范数的定义,注意原始矩阵是n行t列的,根号下平方是对列求和,也就是说是在同一行中进行操作的,根号部分就相当于一个l2范数,由此可以看出l21范数实则为矩阵X每一行的l2范数之和。在矩阵稀疏表...转载 2018-03-27 10:11:09 · 5728 阅读 · 3 评论 -
PCA的本质----特征值分解
本章总结:(可 与主成分分析(PCA)-最大方差解释 https://blog.csdn.net/goodshot/article/details/79950977 结合理解)从数学的角度,对矩阵的特征值分解进行介绍,介绍了符合条件的矩阵和进行特征值分解(2),通过分析协方差的意义(3),使得原始样本X经矩阵A的空间变换后得到的Y的协方差表示出不同特征间的相关性最小(趋于0),从而使用PCA的得...转载 2018-04-15 20:59:24 · 2743 阅读 · 2 评论 -
向量表示,投影,协方差矩阵,PCA
原文:http://blog.csdn.net/songzitea/article/details/18219237引言当面对的数据被抽象为一组向量,那么有必要研究一些向量的数学性质。而这些数学性质将成为PCA的理论基础。理论描述向量运算即:内积。首先,定义两个维数相同的向量的内积为:内积运算将两个向量映射为一个实数。其计算方式非常容易理解,但是其意义并不明显。所以,我们分析内积的几何意义。假设A...转载 2018-04-15 20:59:57 · 1695 阅读 · 0 评论 -
CS231n课程笔记5.4:超参数的选择&交叉验证
CS231n简介详见 CS231n课程笔记1:Introduction。 注:斜体字用于注明作者自己的思考,正确性未经过验证,欢迎指教。1. 超参数有哪些与超参数对应的是参数。参数是可以在模型中通过BP(反向传播)进行更新学习的参数,例如各种权值矩阵,偏移量等等。超参数是需要进行程序员自己选择的参数,无法学习获得。 常见的超参数有模型(SVM,Softmax,Multi-layer Neural ...原创 2018-06-16 18:48:08 · 520 阅读 · 0 评论 -
深度学习-超参数和交叉验证
1.什么是超参数没接触过机器学习的人可能对这个概念比较模糊。我们可以从两方面来理解(1)参数值的产生由来超参数是在开始学习过程之前设置值的参数(人为设置),而不是通过训练得到的参数数据。(2)超参数含义定义关于模型的更高层次的概念,如复杂性或学习能力。不能直接从标准模型培训过程中的数据中学习,需要预先定义。可以通过设置不同的值,训练不同的模型和选择更好的测试值来决定(3)举例超参数的一些示例:树的...原创 2018-06-16 18:41:40 · 2843 阅读 · 0 评论 -
合页损失函数的理解
在学习支持向量机的过程中,我们知道其损失函数为合页损失函数。至于为什么叫这个名字,李航老师的《统计学习方法》上是这么说的:由于函数形状像一个合页,故命合页损失函数。下图为合页损失函数的图像(取自《统计学习方法》): 之前对损失函数的意义一直不是很懂。今天,在看了吴恩达老师的《机器学习》相关视频后,又读了《统计学习方法》的相关内容。对合页损失函数有了自己的理解:横轴表示函数间隔,我们从两个方面...转载 2018-06-16 12:10:36 · 4370 阅读 · 2 评论 -
LDA (Linear Discriminate Analysis)Fisher Criteria
之前说到的PCA,它主要的目的是寻找数据variance变化最大的轴。通过删去数据中variance变化不大的轴来压缩数据的维数。PCA没有办法很好的解决数据分类的问题(classification)。LDA or Fisher Discriminate Analysis 是一种用于分类数据的分析方法。他的目的是寻找到一条直线,当把所有数据点投影到直线上之后,尽可能的分开不同类别的训练数据。很容易...转载 2018-05-19 21:11:38 · 2020 阅读 · 0 评论 -
主成分分析PCA案例及原理
1.主成分分析PCA案例 http://www.cnblogs.com/zhangchaoyang/articles/2222048.html附:使用上方链接的解释:2.主成分分析(PCA)原理总结http://www.cnblogs.com/pinard/p/6239403.html...原创 2018-05-19 16:05:39 · 5344 阅读 · 0 评论 -
中心化(又叫零均值化)和标准化(又叫归一化)
一、中心化(又叫零均值化)和标准化(又叫归一化)概念及目的?1、在回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction(subtraction表示减去))处理和标准化(Standardization或Normalization)处理数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不...转载 2018-05-19 12:39:04 · 77818 阅读 · 6 评论 -
"数据的属性"及“数据的特征”
数据的属性指的是数据的最原始的特征,比如图片的原始像素点,而数据的特征大多指的是属性经过特定的操作的数据,如图片的像素点经过CNN卷积之后得到的特征。广义来说,数据的属性和特征没有区别。...转载 2018-05-17 11:25:25 · 8832 阅读 · 0 评论 -
经验误差,泛化误差
经验误差,泛化误差前言我们在上篇博文 《机器学习模型的容量,过拟合与欠拟合》 中曾经提到过模型的泛化问题,指的就是描述一个模型在未见过的数据中的表现能力。这里再提出了,用于比较经验误差。 ...转载 2018-05-17 11:22:44 · 1745 阅读 · 0 评论 -
熵、交叉熵、相对熵(KL 散度)意义及其关系
转载 2018-04-22 09:27:09 · 530 阅读 · 0 评论 -
矩阵对矩阵求导
矩阵求导 属于 矩阵计算,应该查找 Matrix Calculus 的文献:http://www.psi.toronto.edu/matrix/intro.html#Introhttp://www.psi.toronto.edu/matrix/calculus.htmlhttp://www.stanford.edu/~dattorro/matrixcalc.pdfh转载 2018-01-26 23:19:40 · 3741 阅读 · 0 评论 -
详解协方差与协方差矩阵计算
协方差的定义 对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这个公式来计算,还真不容易反应过来。网上值得参考的资料也不多,这里用一个例子说明协方差矩阵是怎么计算出来的吧。记住,X、Y是一个列向量,它表示了每种情况下每个样本可能出现的数。比如给定则X表示x轴可能出现的数,Y表示y轴可能出现的。原创 2018-01-26 21:31:18 · 12217 阅读 · 3 评论 -
拉格朗日对偶
(红色部分为全文主体部分)本文承接上一篇 约束优化方法之拉格朗日乘子法与KKT条件,将详解一些拉格朗日对偶的内容。都是一些在优化理论中比较简单的问题或者一些特例,复杂的没见过,但是简单的刚接触都感觉如洪水猛兽一般,所以当真是学海无涯。在优化理论中,目标函数 f(x)会有多种形式:如果目标函数和约束条件都为变量 x的线性函数, 称该问题为线性规划; 如果目标函数为原创 2018-01-25 21:55:25 · 531 阅读 · 0 评论 -
numpy.cov() 计算协方差矩阵
在PCA中会用到,记录一下numpy.cov()的作用是计算协方差矩阵,下面给出几个例子[python] view plain copy>>> x = np.array([[0, 2], [1, 1], [2, 0]]).T >>> x array([[0, 1, 2], [2, 1, 0]])转载 2017-09-24 21:52:08 · 2354 阅读 · 0 评论 -
详解协方差与协方差矩阵
协方差的定义 对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这个公式来计算,还真不容易反应过来。网上值得参考的资料也不多,这里用一个例子说明协方差矩阵是怎么计算出来的吧。记住,X、Y是一个列向量,它表示了每种情况下每个样本可能出现的数。比如给定则X表示x轴可能出现的数,Y表示y轴可能出现的。注意这里是关键,给定了4转载 2017-09-24 21:51:21 · 539 阅读 · 0 评论 -
通俗理解“Schmidt正交化”和“正交矩阵” 此博文包含图片 (2015-05-19 09:50:47) 施密特正交化在空间上是不断建立垂直于原次维空间的新向量的过程。 如图β2垂直于β1(1维)
通俗理解“Schmidt正交化”和“正交矩阵”施密特正交化在空间上是不断建立垂直于原次维空间的新向量的过程。如图β2垂直于β1(1维)构建新2维,β3垂直于β1β2(2维)构建新3维。新βn等于αn减去αn在各βi(i最大到n-1)上的投影矢量的结果。投影矢量可理解为α在沿β方向上的分解量,即某Scal转载 2017-09-23 12:03:20 · 1081 阅读 · 0 评论 -
二项分布和多项分布
0-1分布:在一次试验中,要么为0要么为1的分布,叫0-1分布。二项分布:做n次伯努利实验,每次实验为1的概率为p,实验为0的概率为1-p;有k次为1,n-k次为0的概率,就是二项分布B(n,p,k)。二项分布计算:B(n,p,k) = 换一种表达方式,做n次伯努利实验,每次实验为1的概率是p1, 实验为0的概率是p2,有p1+p2=1;转载 2017-07-11 19:56:57 · 2719 阅读 · 0 评论 -
理解矩阵背后的现实意义
线性代数课程,无论你从行列式入手还是直接从矩阵入手,从一开始就充斥着莫名其妙。比如说,在全国一般工科院系教学中应用最广泛的同济线性代数教材(现在到了第四版),一上来就介绍逆序数这个“前无古人,后无来者”的古怪概念,然后用逆序数给出行列式的一个极不直观的定义,接着是一些简直犯傻的行列式性质和习题——把这行乘一个系数加到另一行上,再把那一列减过来,折腾得那叫一个热闹,可就是压根看不出这个东西有嘛用。大转载 2017-02-06 11:30:47 · 1331 阅读 · 0 评论 -
特征值和特征矩阵的意义和应用
矩阵特征值是高等数学的重要内容,在很多领域都有广泛应用,尤其在科学研究与工程设计的计算工程之中,灵活运用矩阵特征值能够使很多复杂问题简化.单纯的求解矩阵特征值是一件比较容易的事,但将特征值应用到其它领域就并非那么简单,也正因为此激发了本作者对矩阵特征值应用的兴趣.本文作者将简单介绍矩阵特征值在线性法建模和微分方程中的应用,通过一些实例让大家体会特征值在建模与微分方程求解中所起的作用.矩阵特征值是高转载 2017-03-06 20:35:25 · 7128 阅读 · 1 评论 -
矩阵——特征向量(Eigenvector)
矩阵的基础内容以前已经提到,今天我们来看看矩阵的重要特性——特征向量。矩阵是个非常抽象的数学概念,很多人到了这里往往望而生畏。比如矩阵的乘法为什么有这样奇怪的定义?实际上是由工程实际需要定义过来的。如果只知道概念不懂有何用处,思维就只有抽象性而没有直观性,实在是无法感受矩阵的精妙。直观性说明我们先看点直观性的内容。矩阵的特征方转载 2017-03-09 18:05:42 · 1799 阅读 · 0 评论 -
模式识别中的特征向量和矩阵的特征向量有什么关系
模式识别中的特征向量和矩阵的特征向量有什么关系 特征向量是个什么东西?学过矩阵论的人都知道,一个可逆的矩阵可以分解为特征值和特征向量的乘积,即AV=lambaV,其中V是特征向量矩阵;这个的好处是可以把一个矩阵换基;即将一个矩阵基底转换为以另一组以特征向量为基的矩阵;好处呢,显而易见,可以抛弃太小的特征值对应的基,他没意义嘛,从而起到降维的效果,这就是PCA降维,可以百度一下;(横原创 2017-03-09 18:03:57 · 5008 阅读 · 0 评论 -
特征向量的几何意义
特征向量的几何意义特征向量确实有很明确的几何意义,矩阵(既然讨论特征向量的问题,当然是方阵,这里不讨论广义特征向量的概念,就是一般的特征向量)乘以一个向量的结果仍 是同维数的一个向量,因此,矩阵乘法对应了一个变换,把一个向量变成同维数的另一个向量,那么变换的效果是什么呢?这当然与方阵的构造有密切关系,比如可 以取适当的二维方阵,使得这个变换的效果就是将平面上的二维向量逆时针旋转30度,这时转载 2017-03-09 16:50:48 · 1161 阅读 · 0 评论 -
求矩阵特征值的方法和性质
求矩阵特征值的方法Ax=mx,等价于求m,使得(mE-A)x=0,其中E是单位矩阵,0为零矩阵。|mE-A|=0,求得的m值即为A的特征值。|mE-A| 是一个n次多项式,它的全部根就是n阶方阵A的全部特征值,这些根有可能相重复,也有可能是复数。性质:1)如果n阶矩阵A的全部特征值为m1 m2 ... mn,则|A|=m1*m2*...*mn2)同时矩阵转载 2017-03-09 16:56:02 · 6269 阅读 · 0 评论 -
主成分分析PCA
主成分分析PCA降维的必要性1.多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯。2.高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间,而在十维空间上只有0.02%。3.过多的变量会妨碍查找规律的建立。4.仅在变量层面上分析可能会忽略变量之间的潜在联系。例如几个预测变量可能落入仅反原创 2017-09-24 21:53:15 · 2035 阅读 · 0 评论 -
傅里叶变换的推导
傅里叶变换 编辑一种积分变换,它来源于函数的傅里叶积分表示。积分 (1)称为ƒ 的傅里叶积分。周期函数在一定条件下可以展成傅里叶级数,而在(-∞,∞)上定义的非周期函数ƒ,显然不能用三角级数来表示。但是J.-B.-J.傅里叶建议把ƒ表示成所谓傅里叶积分的方法。设ƒ(x)是(-l,l)上定义的可积函数,那么在一定条件下,ƒ(x)可以用如下的傅里叶级数来表示:转载 2017-09-26 17:39:01 · 8093 阅读 · 0 评论 -
实对称矩阵
如果有n阶矩阵A,其各个元素都为实数,矩阵主要性质:1.实对称矩阵A的不同特征值对应的特征向量是正交的。2.实对称矩阵A的特征值都是实数,特征向量都是实向量。3.n阶实对称矩阵A必可对角化,且相似对角阵上的元素即为矩阵本身特征值。4.若λ0具有k重特征值 必有k个线性无关的特征向量,或者说必有秩r(λ0E-A)=n-k,其中E为单位矩阵。A的转载 2017-09-27 14:24:43 · 6001 阅读 · 0 评论 -
关于显著性检验,你想要的都在这儿了!!(基础篇)
无论你从事何种领域的科学研究还是统计调查,显著性检验作为判断两个乃至多个数据集之间是否存在差异的方法被广泛应用于各个科研领域。笔者作为科研界一名新人也曾经在显著性检验方面吃过许多苦头。后来醉心于统计理论半载有余才摸到显著性检验的皮毛,也为显著性检验理论之精妙,品种之繁多,逻辑之严谨所折服。在此,特写下这篇博文,以供那些仍然挣扎在显著性检验泥潭的非统计专业的科研界同僚们参考。由于笔者本人也并非统计专转载 2017-12-12 10:22:02 · 13038 阅读 · 2 评论