![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 91
-倾城之恋-
这个作者很懒,什么都没留下…
展开
-
主成分分析(PCA)之去相关思路
预备知识1、x∈Rd×1\boldsymbol x\in\R^{d\times 1}x∈Rd×1为随机变量,x=[x1,x2,...,xd]T\boldsymbol x=[x^1,x^2,...,x^d]^Tx=[x1,x2,...,xd]T,E[x]=0E[\boldsymbol x]=\boldsymbol 0E[x]=0,协方差:Var[x]=[cov(x1,x1)cov(x1,x2)...原创 2020-05-10 22:14:12 · 1911 阅读 · 0 评论 -
从线性方程组求解到最小二乘问题
关键词:线性方程组,矩阵,秩,矩阵逆,伪逆,左逆,右逆,线性方程组求解:Ax=yAx=yAx=y已知A∈Rm×nA\in\R^{m\times n}A∈Rm×n和y∈Rmy\in\R^my∈Rm,求x∈Rnx\in\R^nx∈Rn。mmm为方程个数(行数),nnn为未知数个数(列数),根据mmm,nnn的大小关系,可以分为3类:(1)m>nm>nm>n:超定方程组,(...原创 2020-05-02 23:43:59 · 1707 阅读 · 0 评论 -
约束优化&拉格朗日乘子法&拉格朗日对偶解法的关系
本文梳理一些约束优化里问题常见的一些拉格朗日乘子法与拉格朗日对偶的关系。经常看到一些错误说法:就是拉格朗日对偶解法就是针对不等式约束优化问题的拉格朗日乘子法,实际上并不是。1、约束优化问题约束优化问题,分为等式约束优化问题和不等式约束优化问题。经常利用拉格朗日乘子法求解。2、等式约束优化问题等式约束优化问题相对简单,高等数学中一般都有拉格朗日乘子法求极值的介绍,这里不做过多介绍。f(x)...原创 2020-04-28 11:51:22 · 854 阅读 · 0 评论 -
标注平滑技术(Label Smoothing)
在分类任务中,常用交叉熵损失函数来优化模型。但是交叉熵损失函数中的标注为one-hot向量,在计算损失时,仅仅1标签对应的概率产生了损失,而其它0标签对应的概率无论如何都不会产生损失,这样就浪费了有用信息,容易让模型只关注提高标签对应的概率,而不考虑0标签对应的概率,不利于模型的学习。标注平滑技术对one-hot向量进行了改进,简而言之就是想one-hot向量中的零元素改成一个小的整数,这样在0...原创 2020-04-19 22:58:53 · 401 阅读 · 0 评论 -
tensorflow 简单介绍
tensorflow是谷歌公司开发的一个计算框架,类似于NumPy,但是比后者功能强大的多。tensorflow可以快速开发一些机器学习算法,特别是深度学习算法。tensorflow的核心如字面意思就是张量流。1、张量(tensor)张量的意思可以简单理解为一个高维数组。2、计算图或者流(flow)而计算图就是有一系列张量节点和计算节点组成的一个图,其描述了一个表达式的计算过程。在神经网络...原创 2020-04-17 18:04:51 · 1689 阅读 · 0 评论 -
关于归一化与标准化
1、归一化是什么狭义的归一化(最大最小归一化)是指对多维数据(特征)x=[x1,...,xi,...xd]x=[x_1,...,x_i,...x_d]x=[x1,...,xi,...xd]的每一维进行xi′=xi−min(xi)max(xi)−min(xi)x'_i=\frac{x_i-min(x_i)}{max(x_i)-min(x_i)}xi′=max(xi)−min(xi)xi...原创 2020-04-11 13:22:12 · 361 阅读 · 0 评论 -
梯度提升(Gradient Boosting )
1、梯度提升梯度提升方法的特点在于损失函数比较复杂,难以优化。一般的提升方法的损失函数比较简单。比如Adaboost中,提升模型是多个弱基学习器的加权和,当基于指数损失函数和前向分步算法优化模型时,最终推导结果相当于:每一步仅需要学习当前基学习器使得所有样本的加权损失最小。或者在一般提升回归树中,提升模型是多个弱基学习器的和,当基于平方误差损失函数和前向分步算法优化模型时,最终推导结果相当...原创 2020-02-05 15:00:10 · 754 阅读 · 0 评论 -
从二类逻辑回归到多类逻辑回归,再到softmax分类
二类逻辑回归逻辑回归虽然带有回归两个字,但是却是一个分类模型。之所以说是逻辑回归,是因为在二类逻辑回归中,特征的线性转换wTxw^TxwTx被输入到一个Logistic Sigmoid函数(简称Sigmoid 函数)里。f(x)=1e−wTx, (1)f(x)=\frac{1}{e^{-w^Tx}},~~~~(1)f(x)=e−wTx1,&nbs...原创 2020-01-10 12:29:09 · 509 阅读 · 0 评论 -
分类回归树(CART)的快速理解
回归树回归树是一个回归模型,模型具有树型结构。实际思想就是将特征空间划分为若干个子空间,并计算每个子空间内样本标注的均值。预测时,只需判断样本落入哪个子空间,其对应的子空间标注均值即是其预测值。如何划分特征空间?以连续性特征空间为例,要选择合适的特征维度和合适的划分点。具体方法就是遍历所有的特征维度和候选划分点,使得划分后,预测误差的平方和最小(两个子空间的总方差和最小)。重复该过程直到达...原创 2020-01-06 13:07:09 · 486 阅读 · 0 评论 -
决策树
什么是决策树决策树是一种用于分类或者回归的决策模型,因为其模型是树形结构,因此称为决策树。本质上决策树是if-then规则的集合。如何构建决策树(学习过程)构建决策树的算法有很多,影响比较大的有ID3,C4.5, CART 等。这里我们首先介绍其算法的思想框架。以分类任务为例:(1) 属性选择:遍历属性集选择一个属性,使得训练集得到一个最好的划分。(2) 新建分支:建立一个子节点,对应...原创 2020-01-03 14:54:24 · 151 阅读 · 0 评论 -
特征值分解与奇异值分解
什么是特征值分解特征值定义:任意的一个nnn阶实数方阵A∈Rn×nA\in R^{n\times n}A∈Rn×n,如果存在非零向量xxx:Ax=λxAx=\lambda xAx=λx, 则称xxx为AAA的特征向量,λ\lambdaλ为AAA的特征值或者本征值。特征值分解:任意的一个nnn阶实数方阵A∈Rn×nA\in R^{n\times n}A∈Rn×n,A含有nnn个线性无关特征...原创 2020-01-01 00:30:53 · 1088 阅读 · 0 评论 -
K近邻法
K近邻是一种机器学习模型,可以用分类或者回归。下面以分类任务为例介绍。基本思想(分类)给定一个有类别标注的样本集,现在有一个测试样本 ,然后预测该测试样本应该属于哪一个类别。用K近邻法就是在训练数据集中找到距离测试样本最近的K个样本,然后看看这K个样本中哪一个类别的样本最多了,然后将该类别作为测试样本的分类结果。思想很简单,这里的难点和重点在于如何找到距离测试样本最近的K个样本。最简单的想法...原创 2019-12-30 14:50:59 · 200 阅读 · 0 评论 -
为什么说梯度方向是函数值上升(的速率)最快的方向
梯度原创 2019-12-11 15:37:35 · 1747 阅读 · 0 评论 -
信息熵
信息熵信息熵是统计学习中常见概念,用来衡量一个随机变量XXX的不确定性,不确定性和概率分布p(X)p(X)p(X)有关,因此有下式:H(X)H(X)H(X)或者H(p)=−∑xp(x)log(p(x))=Exlog(1p(x))H(p)=-\sum\limits_{x} p(x)log(p(x))=E_{x}log(\frac{1}{p(x)})H(p)=−x∑p(x)log(p(x))=E...原创 2019-12-09 11:22:33 · 220 阅读 · 0 评论 -
采样方法之拒绝采样
背景在基于求逆分布的采样方法中,不免遇到不能求逆的复杂累计分布函数,此时可以借助于拒绝采样方法采样。原理拒绝采样的介绍通常从π\piπ的计算或者圆的面积的计算开始。这里我们求面积为例。已知:边长为111的矩形,在不知道π\piπ的值的情况下,求其内切圆面积。采样方法求解:记n=0n=0n=0; 在该矩形内均匀采样(x,y)(x,y)(x,y)数据对,如果x2+y2≤1x^2+y^2\le...原创 2019-04-30 06:20:47 · 1859 阅读 · 3 评论 -
有约束优化之拉格朗日乘子法求解
有约束优化之拉格朗日乘子法求解本篇文章将详解带有约束条件的最优化问题,约束条件分为等式约束与不等式约束,对于等式约束的优化问题,可以直接应用拉格朗日乘子法去求取最优值;对于含有不等式约束的优化问题,可以转化为在满足 KKT 约束条件下应用拉格朗日乘子法求解。拉格朗日求得的并不一定是最优解,只有在凸优化的情况下,才能保证得到的是最优解,所以本文称拉格朗日乘子法得到的为可行解,其实就是局部极小值。...原创 2019-08-09 08:13:17 · 1118 阅读 · 0 评论 -
机器学习总体认识
机器学习是什么?机器学习可以认为是通过在大量的经验或者数据上施加运算,然后来提高完成某项任务,或者提高某系统的性能。这里的关键是经验数据,计算和性能。数据包括:训练数据(经验)和测试数据(模拟未来新数据)。计算包括:训练和预测(推断)。性能包括:训练性能和测试性能,我们多关注测试性能或者叫泛化性能。在确定性能指标的情况下,我们通过研究使用数据,或则如何计算来提高性能。机器学习能干什么?简单...原创 2019-08-07 06:30:44 · 192 阅读 · 0 评论 -
集成学习
集成学习方法分为两大类:1)基于boost的方法:基本原理就是利用一系列弱学习器组成一个强学习器。这些弱学习按顺序依次训练得到。这个方法是首先给每个样本赋一个权值,这个权值被利用到损失函数中。然后训练第一个弱学习器,完成训练之后,根据这个弱学习器在训练集的上的表现,更新样本权值,具体来说就是预测错误的样本被赋予更大的权值,预测正确的值被赋予更小的权值,然后继续训练第二个弱学习器。这样训练N个...原创 2019-08-04 05:21:46 · 169 阅读 · 0 评论 -
优化目标中正则项意义
优化目标中经常会有L1L_1L1或L2L_2L2范数正则项,我们知道这是一种约束,但是具体如何约束?怎么理解?从何而来呢?经常有两种理解:正则项来源于约束优化中的约束条件,通过拉格朗日乘子法并入优化目标中。如[1]中所说。但是需要注意的是,二者不应说是等价的,因为在不等式约束优化中,引入的拉格朗日乘子在优化目标中被当成了待优化的参数,而不是一个常数。因此不等式约束中的C不能能消掉。这样确...原创 2019-07-18 23:02:53 · 2034 阅读 · 2 评论 -
极大似然估计与极大后验估计
极大似然估计(频率学派)极大似然估计把参数当成固定的值θML=argmaxθP(X;θ)=argmaxθlogP(X;θ)\theta _{ML}=\arg \max \limits_{\theta} P(X;\theta)\\=\arg \max \limits_{\theta} logP(X;\theta)θML=argθmaxP(X;θ)=argθmaxlogP(X;θ...原创 2019-07-18 22:13:48 · 831 阅读 · 0 评论 -
最大熵分类模型
最大熵分类模型关键点:P(Y∣X)P(Y|X)P(Y∣X) 中的X是一个样本,含有多个特征[x1,...xd][x_1,...x_d][x1,...xd],所以有多个特征函数f(xi,y)f(x_i,y)f(xi,y)注意最大熵模型和朴素贝叶斯和条件随机场的区别与联系。...原创 2019-07-16 07:29:16 · 564 阅读 · 0 评论 -
HMM之EM算法
HMM的EM算法很多地方都可以找到,但是往往缺失一些不那么容易理解的细节。前向后向算法中P(it=qi,O∣λ)=P(O∣it=qi,λ)∗P(it=qi∣λ)=P(o1,...,ot∣it=qi,λ)∗P(ot+1,...,oT∣it=qi,λ)∗P(it=qi∣λ)=P(o1,...,ot,it=qi,λ)∗P(ot+1,...,oT∣it=qi,λ)=αt(i)∗βt(i)P(i_t...原创 2019-07-16 01:15:34 · 1529 阅读 · 0 评论 -
采样方法初步理解
背景在统计学习中,经常要求期望:比如E[f(x)]E[f(x)]E[f(x)],x为连续型随机变量,如果已知xxx的分布p(x)p(x)p(x),则:E[f(x)]=∫f(x)p(x)dxE[f(x)]=\int f(x)p(x)dxE[f(x)]=∫f(x)p(x)dx但是如果f(x)p(x)f(x)p(x)f(x)p(x)过于复杂,该积分可能无法直接计算。此时采样方法就可以排上用场了。...原创 2019-04-30 02:03:11 · 276 阅读 · 0 评论 -
softmax函数及其应用
softmax函数实际就是一个归一化函数,以一种特殊的方式将一个向量归一化成和为1。在基于神经网络的分类任务中,经常用softmax函数将神经网络的多维输出归一化成一个概率向量,如式通常认为是样本属于第类的概率,为网络参数。概率输出经常用似然函数(likelihood function)作为loss函数。在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。...原创 2019-03-22 07:16:05 · 1821 阅读 · 0 评论 -
常见数学概念理解
奇异值的物理意义是什么?https://www.zhihu.com/question/22237507如何理解拉格朗日乘子法?https://www.zhihu.com/question/38586401转载 2019-03-25 05:25:40 · 286 阅读 · 0 评论 -
ubuntu16.04+CUDA本地安装+cuDNN本地安装+tensorflow
GPU card with CUDA Compute Capability 3.0 or higher.1、下载cuda_8.0.61_375.26_linux.run后放入soft文件夹,建立local文件夹(cuda安装路径)2、运行“sh cuda_8.0.61_375.26_linux.run”,3、在ubuntu系统中已经有显卡驱动时(利用nvidia-smi命令检测),原创 2017-11-23 19:20:01 · 1266 阅读 · 0 评论 -
支持向量机思路
通过最大间隔原则导出SVM基本型:minw,b12∣∣w∣∣2\min\limits_{w,b}\frac{1}{2}||w||^2w,bmin21∣∣w∣∣2s.t. yi(wTxi+b)≥1,i=1,...,ms.t. ~~y_i(w^Tx_i+b)\geq1,i=1,...,ms.t. yi(wTxi+b)≥1,i=1,...,m...原创 2019-07-19 07:11:27 · 277 阅读 · 0 评论 -
动态规划
动态规划是一种求最优解方法。动态规划是运筹学的一个分支,是求解决策过程最优化的数学方法,通常情况下应用于最优化问题,这类问题一般有很多个可行的解,每个解有一个值,而我们希望从中找到最优的答案。动态规划核心思想就是分而治之:将原问题分解为子问题,然后通过求解子问题的解来求原问题的解。动态规划适用的问题:1) 多步骤决策的最优决策序列。2) 具有相同子问题和最优子空间结构。本质上是穷举,但是...原创 2019-07-17 16:12:00 · 153 阅读 · 0 评论 -
状态空间模型与贝叶斯滤波算法
介绍状态空间模型是概率图生成模型,它假设序列观察数据背后由隐状态支撑,或者说隐状态生成了观察。隐状态符合一阶马尔科夫链假设,也就是说,除了前一时刻隐状态外,当前时刻隐状态独立于过去其它所有时刻的隐状态。如下图xnx_nxn为观察,znz_nzn为隐状态。模型如果zzz是离散状态,那就是HMM模型。如果zzz是连续状态,可以成为线性动态系统LDS。模型学习与推断HMM和LDS的参数都...原创 2019-07-31 03:58:10 · 1167 阅读 · 0 评论 -
LSTM和GRU区别与联系
LSTM和GRU都是特殊的RNN架构,都是为了解决梯度消失问题而生。GRU可以认为是简化版本的LSTM。GRU具体两个门结构:重置门和更新门。重置门用来控制新的信息如何与前面的记忆结合,更新门用来控制当前新的记忆与过去的记忆结合。重置门:r=σ(U1xt+W1ht−1)r=\sigma(U_1x_t+W_1h_{t-1})r=σ(U1xt+W1ht−1)更新门:z=σ(U2xt+...原创 2019-08-03 05:08:22 · 1383 阅读 · 0 评论 -
主成分分析(PCA)思路
主成分分析可用于降维。也就是给定一个ddd维的列向量xi∈Rd×1\bm{x}_i\in \mathbb{R}^{d\times 1}xi∈Rd×1,求一个基向量组成的矩阵W∈Rd×dW\in \mathbb{R}^{d\times d}W∈Rd×d。此时如果抛弃一些基向量后有W′∈Rd×d′W'\in \mathbb{R}^{d\times d'}W′∈Rd...原创 2019-07-21 21:00:29 · 530 阅读 · 0 评论 -
手写误差反向传播算法Error BackPropagation
本文介绍如何手写神经网络训练代码已知数据:输入数据X∈Rn×dX\in\mathbb{R}^{n\times d}X∈Rn×d,nnn为样本个数,ddd为样本维数,也就是神经网络输入节点数。标注数据Y∈Rn×tY\in\mathbb{R}^{n\times t}Y∈Rn×t, ttt为输出维数,也就是神经网络输出节点数。注意,为了便于书写,不考虑偏置Bias。神经网络模型:两层权重,三...原创 2019-07-30 04:20:39 · 553 阅读 · 0 评论 -
从EM算法到变分推断(变分贝叶斯推断)
EM算法,变分推断,变分贝叶斯关系原创 2019-07-26 05:46:53 · 5046 阅读 · 0 评论 -
EM算法
在用最大似然原则求解一些图模型参数时,经常会遇到图模型含有隐变量的情况,导致很难简单实用极大似然估计。这类问题一般求助于基于迭代的EM算法。一般分为两步。第一步求期望,第二步最大化。下面我们导出EM算法。已知观察数据Y={y1,...yN}Y=\{y_1,...y_N\}Y={y1,...yN},和隐变量为Z={z1,...,zN}Z=\{z_1,...,z_N\}Z={z1,.....原创 2019-07-25 06:16:27 · 198 阅读 · 0 评论 -
图模型的学习与推断
图模型是概率建模的有力工具,最大优点就是可解释性强。缺点就是经常需要选择特殊的分布来保证好的数学性质,保证可解性。图模型的推断:一般指,对联合分布通过对无关分布求积分或者求和得到待推断变量的边际或边缘分布。图模型的学习:一般指,对图模型的各种分布的参数的估计。如果把参数也看成待推断变量,则图模型的学习过程和推断过程类似,可以统称为推断。因此接下来我们只谈图模型的推断。推断分为两种:1)...原创 2019-07-26 05:44:09 · 658 阅读 · 0 评论 -
软间隔支持向量机
首先考虑硬间隔支持向量机:minw12∣∣w∣∣2\min\limits_w\frac{1}{2}||w||^2wmin21∣∣w∣∣2s.t. yi(wTxi+b)≥1,i=1,..,ms.t.~~y_i(w^Tx_i+b)\geq1, i=1,..,ms.t. yi(wTxi+b)≥1,i=1,..,m在某些样本不满足约束条件的情...原创 2019-07-19 22:16:18 · 643 阅读 · 0 评论 -
BP与梯度下降的关系
梯度下降是一种优化算法,通过参数的迭代更新的方式来求最优或次优参数。W=W‘+梯度(W)BP(误差反向传播算法)是在神经网络领域中, 网络权重的梯度的求法。梯度(W)原创 2017-11-10 19:16:58 · 3234 阅读 · 0 评论