![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习与数理统计
张学渣
ISCAS小硕一枚~ 阿里云CV算法工程师
展开
-
交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)
转自知乎:交叉熵、相对熵(KL散度)、JS散度和Wasserstein距离(推土机距离)写在前面的总结:1、目前分类损失函数为何多用交叉熵,而不是KL散度。首先损失函数的功能是通过样本来计算模型分布与目标分布间的差异,在分布差异计算中,KL散度是最合适的。但在实际中,某一事件的标签是已知不变的(例如我们设置猫的label为1,那么所有关于猫的样本都要标记为1),即目标分布的熵为常数...转载 2019-10-25 16:47:34 · 545 阅读 · 0 评论 -
生成式与判别式方法及参数估计
https://www.cnblogs.com/jcchen1987/p/4424436.html。高斯判别分析https://blog.csdn.net/yskyskyer123/article/details/98197537马氏距离推导https://www.jianshu.com/p/5706a108a0c6马氏距离解释https://blog.csdn.net/qq_32...原创 2019-10-22 15:41:26 · 175 阅读 · 0 评论 -
概率解释·局部加权回归·Logistic回归
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本...转载 2019-10-22 10:46:24 · 1356 阅读 · 0 评论 -
频率学派和贝叶斯学派 参数估计
频率学派和贝叶斯学派 频率学派往往通过证据推导一件事情发生的概率,而贝叶斯学派还会同时考虑这个证据的可信度。从参数估计的角度来讲,频率学派认为参数是固定不变的,虽然我们不知道它,但是我们可以根据一组抽样值去预测它的结果,这就有了极大似然估计(MLE)。极大似然估计的思想就是,我已经抽样产生了一组值(例如抛硬币5次,得出结果:正正反正反),那么到底是什么参数(抛一次硬币,正面朝上的概率)才让我...原创 2019-10-16 15:36:54 · 390 阅读 · 0 评论 -
偏差(Bias)与方差(Variance)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本...转载 2019-10-16 15:04:44 · 1520 阅读 · 0 评论 -
离散K-L变换
离散K-L变化是特征提取中常用的一种方法,通过正交矩阵将原来高维的数据降维数据压缩。优点:1.离散K-L变化可用于任意概率密度函数分布2.得到的新数据之间是不相关的3.通过最小均方误差得到的新的分布接近原始分布缺点:1.类别越多,计算结果越差。2.需要计算自相关矩阵,如果样本数目过少得到的结果比较粗糙。1.原理:原始模式可以展开为若干个正交向量的线性组合。...原创 2019-10-02 14:56:28 · 2033 阅读 · 0 评论 -
LMSE-HK算法
H-K算法即通过最小均方误差求解最优权向量的过程,相较感知器算法固定增量的迭代,H-K算法可以在模式线性不可分的情况下停止迭代。那么代价呢就是需要计算高维逆矩阵,????进行分析。对于给定的N个n维模式,如果数据线性可分,则必存在w(n+1维)使得下列成立:将属于ω2的模式乘以(-1),可得对于全部模式都有的条件。设两类模式的训练样本总数为N,写成增广形式,则有不等式组:Xw>...原创 2019-09-28 11:29:30 · 5254 阅读 · 1 评论 -
关于Novikoff定理与感知机算法的收敛性
感知机模型感知机是一种二类分类的线性模型,它是由误分类驱动的,属于判别模型。说白了,它的实质就是输入空间或特征空间中的一个分离超平面。《统计学习方法》中的定义:学习策略假设训练数据集是线性可分的,感知机学习的目标是求得一个能够将训练集正实例点和负实例点完全分开的分离超平面。在这里,损失函数选择误分类点到超平面S的总距...原创 2019-09-22 20:19:57 · 637 阅读 · 0 评论 -
EM算法
https://zhuanlan.zhihu.com/p/39490840EM 最大熵模型。先说适用范围吧,在之前的讨论中,给出样本观测值之后我们直接通过线性回归、logistic回归计算对数似然函数,求导得到参数的值,但是如果其中含有隐变量,那么我们之前的求导方式就存在问题了。EM模型主要就是解决含有隐变量的参数模型的最大似然估计或极大后验概率估计的!在这里需要先有一个先验知识,Jens...原创 2019-04-27 20:23:17 · 258 阅读 · 0 评论 -
Logistic回归
我们都知道,如果预测值y是个连续的值,我们通常用回归的方法去预测,但如果预测值y是个离散的值,也就是所谓的分类问题,用线性回归肯定是不合理的,因为你预测的值没有一个合理的解释啊。比如对于二分类问题,我用{0,1}表示两类,那超出这个区间的预测值的意义是什么呢?所以我们就要引入一种特殊的回归方法,但通常用于分类问题,这就是Logistic回归,我们通过处理,将所有的预测值都限制在0到1以内,其形式...原创 2019-04-02 13:49:11 · 210 阅读 · 0 评论 -
特征值分解与奇异值分解原理与计算
(一)特征值如果一个非零向量v是方阵A的特征向量,将一定可以表示成下面形式,而λ是特征向量v对应的特征值:特征值分解是将一个矩阵分解成下面的形式:Q代表这个矩阵A组成的特征向量,Σ是一个对角阵,每一个对角线上的值代表特征向量对应的特征值。求解过程例题:方阵的特征值表示什么含义呢,我们通过一组向量图表示。初始状态下,i(红色)...原创 2019-03-28 20:53:44 · 1555 阅读 · 0 评论 -
boost之王牌Xgboost
翻了很多blog发现对xgboost大多直接扎入公式推导,xgboost是什么都没有讲清楚,一知半解的。写一篇blog总结一下嘻嘻Xgboost首先先说清楚 Xgboost是多个CART组成的回归树! 这个要搞清楚啊 Adaboost是分类提升,Xgboost是回归提升!那么分类树(决策树)跟回归树的区别哩,通俗来说决策树根据特征信息得到的是标签,回归树得到的是一个值我们可以认为是这个...原创 2019-04-06 11:14:49 · 211 阅读 · 0 评论 -
矩阵特征值与行列式、迹的关系
矩阵特征值与行列式、迹的关系from: http://www.cnblogs.com/AndyJee/p/3737592.html矩阵的特征值之积等于矩阵的行列式矩阵的特征值之和等于矩阵的迹简单的理解证明如下:1、二次方程的韦达定理:请思考:x^2+bx+c=0 这个方程的所有根的和等于多少、所有根的积等于多少...转载 2019-03-31 10:25:41 · 29857 阅读 · 0 评论 -
烦人的泰勒展开式
初学这个公式的时候应该还是大一上的高数书吧hhh 除了死记硬背并没有去深入理解原理,中间遇到过好几次也没有好好去总结以至于每次都记不熟公式,还是写一篇blog总结理解一下。先po出这个鬼式子这里说一下我理解的为什么要用泰勒展开式吧:对于一些复杂函数我们没有办法去直接求导或者一些函数我们根本不知道它的图像是长什么样子的,但是我们又需要用到这个函数,然后泰勒就想出来了一个方法,让这些函...原创 2019-04-04 09:56:42 · 528 阅读 · 0 评论