数学
文章平均质量分 73
littlehaes
这个作者很懒,什么都没留下…
展开
-
线性代数温习
大一学的线性代数,遗忘的很严重,现在复习一下,从线性方程组说起一.线性方程组齐次线性方程组;非齐次线性方程组要对A和x的矩阵形式熟悉, 看到Ax=0能在脑中快速过一遍计算流程 对于齐次线性方程组,设解空间为S: S对向量的加法和数乘两种运算是封闭的任意一个解都可表示为其解空间向量的线性组合n阶系数矩阵的秩为r,S的维数(基的个数)为n-r关于齐次线性方程组的解 设...原创 2018-02-21 23:54:10 · 700 阅读 · 0 评论 -
Matrix Derivative矩阵求导
Welcome To My Blog 学习机器学习算法时总碰见矩阵求导,现学习一波,主要总结下 注意:这里只涉及实数的求导,研究通信的人可能接触的往往是负数求导 矩阵可以写成列向量(column vectors)或行向量(row vectors)的形式,这两种不同的形式把矩阵求导分成了两种不同的情况 求导类型 表格列举了六种不同的矩阵求导类型,粗体代表向量或者矩阵(其实标量和...原创 2018-04-06 12:53:36 · 1607 阅读 · 0 评论 -
Linear Regression线性回归
Welcome To My Blog Linear Regression线性回归(Linear Regression)是一种线性模型(linear model),它将各个特征进行线性组合,实现对新输入的预测 线性回归可解释性很强,因为特征对应的权值大小直接衡量了这个特征的重要性 表示形式设每个输入x_i都有m个特征,每个特征x_ij对应一个权值w_j 对于一个输入 ...原创 2018-04-06 17:02:24 · 274 阅读 · 0 评论 -
Logistic Regression逻辑斯蒂回归
Welcome To My Blog Logistic Regressionlogistic回归是统计学习中的经典分类方法,他属于对数线性模型,logistic回归来源于logitic分布,先从logistic分布说起Logistic distribution设X是连续随机变量,X服从logistic分布,其分布函数和概率密度函数如下:分布函数其中,μ为位置参...原创 2018-04-06 17:03:32 · 685 阅读 · 0 评论 -
Maximum Entropy Model最大熵模型
Welcome To My Blog 最大熵模型(Maximum Entropy Model)属于对数线性模型,由最大熵原理推导实现.最大熵原理最大熵原理是概率模型学习的一个准则. 最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型. 通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型 ...原创 2018-04-07 13:12:03 · 1522 阅读 · 0 评论 -
word2vec数学推导过程
Welcome To My Blog word2vec包含两种框架,一种是CBOW(Continuous Bag-of-Words Model),另一种是Skip-gram(Continuous Skip-gram Model),如下图所示。这两种模型的任务是:进行词的预测,CBOW是预测P(w|context(w)),Skip-gram是预测P(context(w)|w)。当整个词典中所有词的...原创 2018-06-13 16:43:18 · 1659 阅读 · 0 评论 -
文本建模之Unigram Model
Welcome To My Blog 通过生成文章及语料的例子介绍unigram model 参考: 靳志辉,《LDA数学八卦》原创 2018-06-19 17:07:10 · 1503 阅读 · 0 评论 -
主题模型之PLSA
Welcome To My Blog 上一篇文章介绍了文本建模之Unigram Model,但这个模型太过于简略,本篇文章介绍PLSA(Probabilistic Latent Semantic Analysis,概率化的潜在语义分析) 参考: 靳志辉,《LDA数学八卦》...原创 2018-06-19 17:20:03 · 805 阅读 · 0 评论 -
主题模型之LDA
Welcome To My Blog 文本建模之Unigram Model考虑了先验分布,但是没有考虑主题 主题模型之PLSA考虑了主题,但是没有考虑先验分布 本篇介绍的LDA(Latent Dirichlet Allocation,潜在的狄利克雷分配)主题模型既考虑了先验分布也考虑了主题。 参考: 靳志辉,《LDA数学八卦》...原创 2018-06-19 18:05:59 · 198 阅读 · 0 评论 -
交叉熵与KL散度
老遇到交叉熵作为损失函数的情况,于是总结一下KL散度交叉熵从KL散度(相对熵)中引出,KL散度(Kullback-Leibler Divergence)公式为: KL散度是衡量两个分布之间的差异大小的,KL散度大于等于0,并且越接近0说明p与q这两个分布越像,当且仅当p与q相等时KL散度取0.交叉熵在机器学习的分类问题中,常以交叉熵作为损失函数,此时同样可以衡量两个分...原创 2018-08-07 23:46:59 · 2240 阅读 · 0 评论 -
什么是“与尺度无关的”变量
今天碰到了与尺度无关的平移量和与尺度无关的缩放量,什么是与尺度无关呢?尺度是什么? 其实可以把尺度理解成“单位”,也就是与单位无关,也就是没有单位。 与尺度无关的平移量,这个平移量没有单位, 比如,x1,x2是坐标,(x1-x2)和w都是长度单位,(x1-x2)/w就是与尺度无关的平移量 与尺度无关的缩放量,这个缩放量没有单位,比如,ln(w1/w2)...原创 2018-09-05 17:21:51 · 1327 阅读 · 2 评论 -
为什么要最大化后验概率
训练模型时,我们经常先为后验概率建模,也就是写出后验概率的数学表达式,然后求后验概率的最大值,使得后验概率最大的那些参数就是训练结果了。为什么最大化后验概率是有意义的呢?本质上和我们日常生活中的判断方式是一致的。举个例子,我们对一类物体进行分类,类别有c1,c2,c3…等等我们拿到某个物体x时,怎么对x进行分类?其实就是判断p(x,c1),p(x,c2),p(x,c3)…中哪个值最大!比如p...原创 2018-10-19 10:09:38 · 2462 阅读 · 4 评论 -
为什么梯度方向与等高线垂直
welcome to my blog有些结论用起来习以为常,却不知道背后的原理,比如为什么梯度方向与等高线垂直,弄明白后心里才舒畅要解决这个问题首先得有等高线的数学表达式等高线的法线以三维空间为例, 设某曲面的表达式为z=f(x,y)z=f(x,y)z=f(x,y),对于任意高度且平行于xoy的平面z=cz=cz=c来说,等高线为{z=f(x,y)z=c\begin{cases}z=f(...原创 2018-10-22 11:42:36 · 5579 阅读 · 0 评论 -
FP,FN,TP,TN与精确率(Precision),召回率(Recall),准确率(Accuracy)
welcome to my blog一: FP,FN,TP,TN刚接触这些评价指标时,感觉很难记忆FP,FN,TP,TN,主要还是要理解,理解后就容易记住了P(Positive)和N(Negative) 代表模型的判断结果T(True)和F(False) 评价模型的判断结果是否正确比如FP:模型的判断是正例§,实际上这是错误的(F),连起来就是假正例以此类推:FP:假正例FN:假负...原创 2018-10-22 20:19:09 · 50174 阅读 · 2 评论 -
Maximum Likelihood Estimation极大似然估计
Welcome To My Blog 贝叶斯公式现通过分类问题解释贝叶斯公式: P(c)是类别c的先验(prior)概率 P(x|c)是似然概率(likelihood probability),或者说是样本x相对于类别c的类条件概率(class-conditional probability) P(x)是用于归一化的证据(evidence)因子,通过全概率公式将P(x)展开...原创 2018-04-03 11:20:53 · 980 阅读 · 0 评论 -
Naive Bayes朴素贝叶斯法
Welcome To My Blog 朴素贝叶斯方法基于贝叶斯公式,之所以朴素(Naive)是因为它有一个较强的假设,让自己包含的条件概率数量大大减少,有助于模型的训练与预测,这个假设是:条件独立 注意:朴素贝叶斯估计和贝叶斯估计是不同的概念,下文会提到贝叶斯估计Naive Bayes法的训练与分类朴素贝叶斯法的基本思路:对于给定的训练集,基于特征之间条件独立的假设去...原创 2018-04-02 23:27:10 · 267 阅读 · 0 评论 -
PCA主成分分析数学原理
复习完线性代数再来推导下PCA 概述主成分分析(principalcomponent analysis)是一种数据分析方法, 出发点:从一组特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,并且相互之间是不相关(即不线性相关)的. 重要性:通过方差衡量,方差大说明数据分布很散,含有的信息量大不相关:推导时用具体推导参数说明记x1,x...原创 2018-02-22 17:24:30 · 845 阅读 · 0 评论 -
SVD奇异值分解数学原理
推导完PCA再来看看SVD 概述奇异值分解(singular value decomposition)可以分解任意形状的矩阵, PCA是对方阵操作,所以SVD适用范围更A=UΣV^t具体推导分解形式A是一个m*n的矩阵,那么A的SVD分解为Amn= Umm*Σmn*Vnn^t (Amn表示A是m*n的矩阵) 其中: + Σ只在对角线(可能不同于方阵的对角线...原创 2018-02-22 22:38:31 · 484 阅读 · 0 评论 -
SVD与PCA的联系
最主要的一点:对矩阵进行PCA降维,一般是通过SVD实现的,而不是去计算原矩阵特征的协方差矩阵.当前数据为p*n的矩阵X,n个样本,每个样本维度为p SVD: Xpn = UΣV^tPCA: Xpn = App^t*Ypn (A是正交矩阵,由p个特征的协方差矩阵的单位特征向量构成;Y是在新维度下的数据表示)将SVD与PCA联系起来 SVD: X*X^t = U*Σ*Σ^t*U^t ...原创 2018-02-23 00:09:48 · 464 阅读 · 0 评论 -
Unbiased Estimation 无偏估计与分母N-1
何谓无偏估计个人理解是,用某种方式对采样后的样本进行统计,比如求方差,这个方差会随着样本的不同而有浮动,或者说通过样本得到的方差是个随机变量,多次采样后可以对样本的方差求期望,如果方差的期望值中不含变量则说明计算样本方差的公式是合理的,换句话说:用这种公式进行估计没有系统上的偏差,产生误差的原因只有一个:随机因素(跟你每次采样的运气有关)样本均值样本均值计算公式有n个样本,...原创 2018-02-23 11:18:31 · 1557 阅读 · 0 评论 -
Convex Set and Convex Function凸集与凸函数
Rockafeller说:”优化问题的分水岭不是线性和非线性,而是凸性和非凸性”两点连线上的点在介绍凸集和凸函数之前,先来看一个与之有关的基本问题: 如下图,已知空间中有B,C两点,在给定两点坐标的情况下如何量化B,C连线上的任意一点D? 很简单,看下图,设已知A,B,C,D的坐标, AD = AB + BD = AB + kBC (D在BC上,所以k∈[0,1]) ...原创 2018-02-23 23:28:26 · 1090 阅读 · 0 评论 -
Lagrange duality拉格朗日对偶性
Welcome To My Blog 在约束最优化问题(Constrained Optimization)中,常常利用拉格朗日对偶性(Lagrange duality)将原始问题转换为对偶问题,通过求解对偶问题而得到原始问题的解,该方法可用在最大熵模型(Maximum Entropy)和支持向量机(Support Vector Machine).约束最优化问题标准形式: f(x...原创 2018-03-17 11:16:26 · 893 阅读 · 0 评论 -
Markov Chain Monte Carlo 和 Gibbs Sampling算法
Welcome To My Blog一.蒙特卡洛模拟蒙特卡洛模拟(Monte Carlo Simulation)是随机模拟的别名,关于随机模拟的一个重要的问题就是:给定一个概率分布p(x),如何生成它的样本? 一般而言,均匀分布Uniform(0,1)的样本容易生成,而常见的概率分布(连续或离散)都可以基于均匀分布的样本生成,例如正态分布可以通过Box-Muller变换得到. 但是...原创 2018-03-22 23:14:53 · 975 阅读 · 0 评论 -
SupportVectorMachine支持向量机
Welcome To My Blog 支持向量机(support vector machine,SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机. 有3类支持向量机模型: 1. 线性可分支持向量机 2. 线性支持向量机 3. 非线性支持向量机 (这三种模型建立思路很像,求解过程不同)一.线性可分支持...原创 2018-03-20 12:51:33 · 515 阅读 · 0 评论 -
Line search and Step length线搜索与步长
Welcome To My Blog 在最优化(optimization)问题中,线搜索(line search)和置信域(trust region)方法是寻找局部最小值(local minimum)基本迭代方法(iterative approach),主要说说线搜索方法(置信域方法过于专业)线搜索(Line search)以f(x)为例,线搜索会先找一个使f(x)下降的方向,接着计...原创 2018-03-30 16:16:02 · 5895 阅读 · 3 评论 -
为什么梯度方向是函数值增大最快的方向
Welcome To My Blog 梯度下降中,梯度反方向是函数值下降最快的方向,说明梯度方向是函数值上升最快的方向. 下面给出说明,基础好的可以直接看最后一部分:沿梯度方向函数值增大最快 无穷小量定理高阶无穷小引出微分微分全微分方向导数定义: 方向导数实际上是函数f在x_0处沿l方向关于距离t的变化率 ...原创 2018-03-31 11:11:28 · 14027 阅读 · 0 评论 -
Gradient descent梯度下降(Steepest descent)
Welcome To My Blog 梯度下降(gradient descent)也叫最速下降(steepest descent),用来求解无约束最优化问题的一种常用方法,结果是局部最优解,对于目标函数为凸的情况,可以得到全局最优解.梯度下降是迭代算法,每一步需要求解目标函数的梯度向量. 采用线搜索的框架 搜索方向取负梯度方向,步长可以通过精确线搜索或非精确线搜索获得 关于步长...原创 2018-03-31 18:45:57 · 2545 阅读 · 0 评论 -
Dirichlet Multinomial 共轭
Welcome To My Blog 作为LDA的预备知识,Dirichlet Multinomial共轭结构很重要,在介绍这个共轭结构之前,先介绍一下将会用到的相关概念一.Gamma 函数Gamma函数定义: 分部积分后可得: 不断展开等式右边,进而有: Bohr-Mullerup定理: 如果f:(0,∞)→(0,∞),且满足:f(1)=1;f(x+1)=xf(...原创 2018-03-21 22:15:05 · 1087 阅读 · 0 评论 -
Newton's method and Quasi Newton method牛顿法与拟牛顿法
Welcome To My Blog 牛顿法和拟牛顿法是求解无约束最优化问题的常用方法,优点是收敛速度快. 牛顿法是迭代算法,每一步需要求解目标函数的Hessian矩阵的逆矩阵,矩阵的逆运算很耗时. 拟牛顿法通过正定矩阵近似Hessian矩阵的逆矩阵或Hessian矩阵,简化Hessian矩阵的求逆计算过程 采用线搜索框架 搜索方向由牛顿法或拟牛顿法给出,步长可以通过精确线搜...原创 2018-04-02 12:20:03 · 1574 阅读 · 0 评论 -
箱线图怎么看
看图说话,注意以下几个点:一.箱子的中间一条线,是数据的中位数,代表了样本数据的平均水平。二.箱子的上下限,分别是数据的上四分位数和下四分位数。这意味着箱子包含了50%的数据。因此,箱子的宽度在一定程度上反映了数据的波动程度。三.在箱子的上方和下方,又各有一条线。有时候代表着最大最小值,有时候会有一些点“冒出去”。请千万不要纠结,不要纠结,不要纠结(重要的事情说三遍),如果有点冒出去,理解...转载 2018-11-01 16:37:57 · 132311 阅读 · 4 评论