![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
统计
-倾城之恋-
这个作者很懒,什么都没留下…
展开
-
主成分分析(PCA)之去相关思路
预备知识1、x∈Rd×1\boldsymbol x\in\R^{d\times 1}x∈Rd×1为随机变量,x=[x1,x2,...,xd]T\boldsymbol x=[x^1,x^2,...,x^d]^Tx=[x1,x2,...,xd]T,E[x]=0E[\boldsymbol x]=\boldsymbol 0E[x]=0,协方差:Var[x]=[cov(x1,x1)cov(x1,x2)...原创 2020-05-10 22:14:12 · 1911 阅读 · 0 评论 -
关于归一化与标准化
1、归一化是什么狭义的归一化(最大最小归一化)是指对多维数据(特征)x=[x1,...,xi,...xd]x=[x_1,...,x_i,...x_d]x=[x1,...,xi,...xd]的每一维进行xi′=xi−min(xi)max(xi)−min(xi)x'_i=\frac{x_i-min(x_i)}{max(x_i)-min(x_i)}xi′=max(xi)−min(xi)xi...原创 2020-04-11 13:22:12 · 361 阅读 · 0 评论 -
viterbi算法与动态规划
viterbi算法原创 2020-02-23 14:19:32 · 855 阅读 · 0 评论 -
梯度提升(Gradient Boosting )
1、梯度提升梯度提升方法的特点在于损失函数比较复杂,难以优化。一般的提升方法的损失函数比较简单。比如Adaboost中,提升模型是多个弱基学习器的加权和,当基于指数损失函数和前向分步算法优化模型时,最终推导结果相当于:每一步仅需要学习当前基学习器使得所有样本的加权损失最小。或者在一般提升回归树中,提升模型是多个弱基学习器的和,当基于平方误差损失函数和前向分步算法优化模型时,最终推导结果相当...原创 2020-02-05 15:00:10 · 754 阅读 · 0 评论 -
分类回归树(CART)的快速理解
回归树回归树是一个回归模型,模型具有树型结构。实际思想就是将特征空间划分为若干个子空间,并计算每个子空间内样本标注的均值。预测时,只需判断样本落入哪个子空间,其对应的子空间标注均值即是其预测值。如何划分特征空间?以连续性特征空间为例,要选择合适的特征维度和合适的划分点。具体方法就是遍历所有的特征维度和候选划分点,使得划分后,预测误差的平方和最小(两个子空间的总方差和最小)。重复该过程直到达...原创 2020-01-06 13:07:09 · 486 阅读 · 0 评论 -
决策树
什么是决策树决策树是一种用于分类或者回归的决策模型,因为其模型是树形结构,因此称为决策树。本质上决策树是if-then规则的集合。如何构建决策树(学习过程)构建决策树的算法有很多,影响比较大的有ID3,C4.5, CART 等。这里我们首先介绍其算法的思想框架。以分类任务为例:(1) 属性选择:遍历属性集选择一个属性,使得训练集得到一个最好的划分。(2) 新建分支:建立一个子节点,对应...原创 2020-01-03 14:54:24 · 151 阅读 · 0 评论 -
特征值分解与奇异值分解
什么是特征值分解特征值定义:任意的一个nnn阶实数方阵A∈Rn×nA\in R^{n\times n}A∈Rn×n,如果存在非零向量xxx:Ax=λxAx=\lambda xAx=λx, 则称xxx为AAA的特征向量,λ\lambdaλ为AAA的特征值或者本征值。特征值分解:任意的一个nnn阶实数方阵A∈Rn×nA\in R^{n\times n}A∈Rn×n,A含有nnn个线性无关特征...原创 2020-01-01 00:30:53 · 1088 阅读 · 0 评论 -
K近邻法
K近邻是一种机器学习模型,可以用分类或者回归。下面以分类任务为例介绍。基本思想(分类)给定一个有类别标注的样本集,现在有一个测试样本 ,然后预测该测试样本应该属于哪一个类别。用K近邻法就是在训练数据集中找到距离测试样本最近的K个样本,然后看看这K个样本中哪一个类别的样本最多了,然后将该类别作为测试样本的分类结果。思想很简单,这里的难点和重点在于如何找到距离测试样本最近的K个样本。最简单的想法...原创 2019-12-30 14:50:59 · 200 阅读 · 0 评论 -
信息熵
信息熵信息熵是统计学习中常见概念,用来衡量一个随机变量XXX的不确定性,不确定性和概率分布p(X)p(X)p(X)有关,因此有下式:H(X)H(X)H(X)或者H(p)=−∑xp(x)log(p(x))=Exlog(1p(x))H(p)=-\sum\limits_{x} p(x)log(p(x))=E_{x}log(\frac{1}{p(x)})H(p)=−x∑p(x)log(p(x))=E...原创 2019-12-09 11:22:33 · 220 阅读 · 0 评论 -
最大熵分类模型
最大熵分类模型关键点:P(Y∣X)P(Y|X)P(Y∣X) 中的X是一个样本,含有多个特征[x1,...xd][x_1,...x_d][x1,...xd],所以有多个特征函数f(xi,y)f(x_i,y)f(xi,y)注意最大熵模型和朴素贝叶斯和条件随机场的区别与联系。...原创 2019-07-16 07:29:16 · 564 阅读 · 0 评论 -
机器学习总体认识
机器学习是什么?机器学习可以认为是通过在大量的经验或者数据上施加运算,然后来提高完成某项任务,或者提高某系统的性能。这里的关键是经验数据,计算和性能。数据包括:训练数据(经验)和测试数据(模拟未来新数据)。计算包括:训练和预测(推断)。性能包括:训练性能和测试性能,我们多关注测试性能或者叫泛化性能。在确定性能指标的情况下,我们通过研究使用数据,或则如何计算来提高性能。机器学习能干什么?简单...原创 2019-08-07 06:30:44 · 192 阅读 · 0 评论 -
优化目标中正则项意义
优化目标中经常会有L1L_1L1或L2L_2L2范数正则项,我们知道这是一种约束,但是具体如何约束?怎么理解?从何而来呢?经常有两种理解:正则项来源于约束优化中的约束条件,通过拉格朗日乘子法并入优化目标中。如[1]中所说。但是需要注意的是,二者不应说是等价的,因为在不等式约束优化中,引入的拉格朗日乘子在优化目标中被当成了待优化的参数,而不是一个常数。因此不等式约束中的C不能能消掉。这样确...原创 2019-07-18 23:02:53 · 2034 阅读 · 2 评论 -
支持向量机思路
通过最大间隔原则导出SVM基本型:minw,b12∣∣w∣∣2\min\limits_{w,b}\frac{1}{2}||w||^2w,bmin21∣∣w∣∣2s.t. yi(wTxi+b)≥1,i=1,...,ms.t. ~~y_i(w^Tx_i+b)\geq1,i=1,...,ms.t. yi(wTxi+b)≥1,i=1,...,m...原创 2019-07-19 07:11:27 · 277 阅读 · 0 评论 -
软间隔支持向量机
首先考虑硬间隔支持向量机:minw12∣∣w∣∣2\min\limits_w\frac{1}{2}||w||^2wmin21∣∣w∣∣2s.t. yi(wTxi+b)≥1,i=1,..,ms.t.~~y_i(w^Tx_i+b)\geq1, i=1,..,ms.t. yi(wTxi+b)≥1,i=1,..,m在某些样本不满足约束条件的情...原创 2019-07-19 22:16:18 · 643 阅读 · 0 评论 -
熵,哈夫曼编码,二进制
本文介绍熵与哈夫曼编码的关系,以及二进制在熵和哈夫曼编码中的位置。熵熵是对不确定性的度量。熵越大,不确定性越大。对于一个随机变量X,其熵为:H(X)=−∑xP(x)loga(P(x))H(X)=-\sum\limits_x P(x)log_a(P(x))H(X)=−x∑P(x)loga(P(x)).当X服从均匀分布时,其不确定或熵最大。当X完全确定时,熵为0.其中aaa可以取任...原创 2019-07-18 01:10:24 · 3622 阅读 · 0 评论 -
图模型的学习与推断
图模型是概率建模的有力工具,最大优点就是可解释性强。缺点就是经常需要选择特殊的分布来保证好的数学性质,保证可解性。图模型的推断:一般指,对联合分布通过对无关分布求积分或者求和得到待推断变量的边际或边缘分布。图模型的学习:一般指,对图模型的各种分布的参数的估计。如果把参数也看成待推断变量,则图模型的学习过程和推断过程类似,可以统称为推断。因此接下来我们只谈图模型的推断。推断分为两种:1)...原创 2019-07-26 05:44:09 · 658 阅读 · 0 评论 -
EM算法
在用最大似然原则求解一些图模型参数时,经常会遇到图模型含有隐变量的情况,导致很难简单实用极大似然估计。这类问题一般求助于基于迭代的EM算法。一般分为两步。第一步求期望,第二步最大化。下面我们导出EM算法。已知观察数据Y={y1,...yN}Y=\{y_1,...y_N\}Y={y1,...yN},和隐变量为Z={z1,...,zN}Z=\{z_1,...,z_N\}Z={z1,.....原创 2019-07-25 06:16:27 · 198 阅读 · 0 评论 -
从EM算法到变分推断(变分贝叶斯推断)
EM算法,变分推断,变分贝叶斯关系原创 2019-07-26 05:46:53 · 5046 阅读 · 0 评论 -
主成分分析(PCA)思路
主成分分析可用于降维。也就是给定一个ddd维的列向量xi∈Rd×1\bm{x}_i\in \mathbb{R}^{d\times 1}xi∈Rd×1,求一个基向量组成的矩阵W∈Rd×dW\in \mathbb{R}^{d\times d}W∈Rd×d。此时如果抛弃一些基向量后有W′∈Rd×d′W'\in \mathbb{R}^{d\times d'}W′∈Rd...原创 2019-07-21 21:00:29 · 530 阅读 · 0 评论 -
采样方法初步理解
背景在统计学习中,经常要求期望:比如E[f(x)]E[f(x)]E[f(x)],x为连续型随机变量,如果已知xxx的分布p(x)p(x)p(x),则:E[f(x)]=∫f(x)p(x)dxE[f(x)]=\int f(x)p(x)dxE[f(x)]=∫f(x)p(x)dx但是如果f(x)p(x)f(x)p(x)f(x)p(x)过于复杂,该积分可能无法直接计算。此时采样方法就可以排上用场了。...原创 2019-04-30 02:03:11 · 276 阅读 · 0 评论 -
状态空间模型与贝叶斯滤波算法
介绍状态空间模型是概率图生成模型,它假设序列观察数据背后由隐状态支撑,或者说隐状态生成了观察。隐状态符合一阶马尔科夫链假设,也就是说,除了前一时刻隐状态外,当前时刻隐状态独立于过去其它所有时刻的隐状态。如下图xnx_nxn为观察,znz_nzn为隐状态。模型如果zzz是离散状态,那就是HMM模型。如果zzz是连续状态,可以成为线性动态系统LDS。模型学习与推断HMM和LDS的参数都...原创 2019-07-31 03:58:10 · 1167 阅读 · 0 评论 -
集成学习
集成学习方法分为两大类:1)基于boost的方法:基本原理就是利用一系列弱学习器组成一个强学习器。这些弱学习按顺序依次训练得到。这个方法是首先给每个样本赋一个权值,这个权值被利用到损失函数中。然后训练第一个弱学习器,完成训练之后,根据这个弱学习器在训练集的上的表现,更新样本权值,具体来说就是预测错误的样本被赋予更大的权值,预测正确的值被赋予更小的权值,然后继续训练第二个弱学习器。这样训练N个...原创 2019-08-04 05:21:46 · 169 阅读 · 0 评论 -
极大似然估计与极大后验估计
极大似然估计(频率学派)极大似然估计把参数当成固定的值θML=argmaxθP(X;θ)=argmaxθlogP(X;θ)\theta _{ML}=\arg \max \limits_{\theta} P(X;\theta)\\=\arg \max \limits_{\theta} logP(X;\theta)θML=argθmaxP(X;θ)=argθmaxlogP(X;θ...原创 2019-07-18 22:13:48 · 831 阅读 · 0 评论