数学基础
文章平均质量分 77
cyoutetsu
这个作者很懒,什么都没留下…
展开
-
拉格朗日对偶性
拉格朗日对偶性拉格朗日对偶性常常被用来解决有约束条件的最优化问题,在最大熵模型或者支持向量机的优化中最为常见,其主要思路就是将带约束条件的原始为题转换为没有约束条件的对偶问题。原始问题和拉格朗日函数首先呈现以下原始问题,我们在做优化的时候,会遇到需要优化一个函数 f(x)f(x),这个函数还带着两个约束条件,这里分别用 ci(x)c_i(x) 和 hj(x)h_j(x) 来表示,写成数学表达式就是:原创 2017-08-24 11:28:45 · 290 阅读 · 0 评论 -
最大熵模型
信息论概述信息论主要的关注点是一个信号包含的信息量。在机器学习的范畴内,信息论的思想主要是和概率结合,用来描述概率分布及其相关特性的。信息论的基本思想一件大概率事件发生了,给我们提供的信息要少于一件小概率事件发生提供的信息。比如我们天天习以为常的事情每天都在发生,没什么好研究的,如果一件几百年一遇的事情发生了,其信息量就很丰富了。以上这种思想其实是在用概率来量化一个信号的信息量。也就是小概率对应大信原创 2017-08-23 14:24:05 · 524 阅读 · 0 评论 -
线性代数背景知识
线性代数线性代数的基本元素标量一个标量(scalar)就是一个单独的数。向量一个向量(vector)是一列数,我们可以把向量看作空间中的点,每个元素是不同坐标轴上的坐标。矩阵一个矩阵(matrix)是一个二维数组,其中的每一个元素由两个索引所确定。线性代数的运算矩阵相加只要矩阵的形状一样,我们就可以把两个矩阵相加,两个矩阵相加是指对应位置的元素相加。 例如 C=A+BC=A+B 即为:Cij=Ai原创 2017-09-05 08:20:58 · 1762 阅读 · 0 评论 -
概率背景知识
概率分布概率分布(probability distribution)用来描述随机变量或一簇随机变量在米一个可能取到的状态的可能性的大小。概率质量函数离散型变量的概率分布可以用概率质量函数(probability mass function, PMF)来描述。例如一个随机变量X,X的取值为x时候的概率就是PMF(x),可以简写成P(x)。联合概率分布PMF同时可以作用于多个随机变量上,例如X和Y,当X原创 2017-09-07 09:02:53 · 729 阅读 · 0 评论 -
优化数学基础
目标函数在机器学习中,把需要最大化或者最小化的函数称为目标函数。而在其中一大部分都是最小化,在最小化的优化中,目标函数又被称为代价函数(cost function)或者损失函数(loss function)。导数和偏导数假设有一个函数 y=f(x)y=f(x),导数 f′(x)f'(x) 代表了 f(x)f(x) 在点x上的斜率。求导对于机器学习中优化问题的有很重要的意义。例如在梯度下降中,优化的方原创 2017-09-11 10:53:22 · 545 阅读 · 0 评论