统计学习方法
leemusk
这个作者很懒,什么都没留下…
展开
-
统计机器学习---主成分分析(PCA)
主成分分析的基本了解主成分分析方法,是一种使用最广泛的数据降维算法,PCA的主要思想是将高维的特征映射到k维上。这k维就是主成分,并能保留原始变量的大部分信息,这里的信息是指原油变量的方差。如何得到包含最大差异性的主成分方向?通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大的K个特征所对应的特征向量组成的矩阵。那么就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。得到协方差矩阵的特征值向量有两种方法:特征值分解协方差矩阵、奇异值分解协方差矩阵。所有PCA算法有原创 2020-07-06 10:11:50 · 3549 阅读 · 0 评论 -
奇异值分解---SVD(待补充)
什么是奇异值分解?奇异值分解是指将一个非零的 m * n 实矩阵A, 表示为以下三个实矩阵乘积形式的运算,即进行矩阵的因子分解。A=UΣVT A = U\Sigma V^T A=UΣVTUUU 是 m 阶正交矩阵,V 是 n 阶正交矩阵,Σ=diag(σ1,σ2,...,σp)\Sigma = diag(\sigma_1,\sigma_2,..., \sigma_p)Σ=diag(σ1,σ2,...,σp) 是由降序排列的非负的对角线元素组成的 m * n 矩阵对角矩阵。σ\sigmaσ 称原创 2020-07-06 10:11:01 · 1943 阅读 · 0 评论 -
统计学习方法---聚类分析
聚类分类方法是属于有监督学习,聚类是属于无监督学习。K均值聚类是最基础和最常用的聚类算法。它的基本思想是,通过迭代方法寻找K个簇的一种划分方案。通过最小化损失函数来获取最有的划分方案,损失函数可以定义为各个样本距离所属簇中心点的误差平方和。使用的距离通常为欧式距离。聚类的核心概念: 相似度或距离聚类方法:a. 欧式距离dij=(∑k=1m∣xki−xkj∣2)12d_{ij} = (\sum_{k=1}^m|x_{ki} - x_{kj}|^2)^{\frac 1 2}dij=(k=1∑m原创 2020-05-16 15:53:03 · 4997 阅读 · 0 评论 -
统计学习方法---条件随机场
条件随机场的定义概率无向图模型的联合概率分布P(Y) 可以表示如下:P(Y)=1Z∏CΨC(YC)Z=∑Y∏CΨC(YC)P(Y) = \frac 1 {Z} \prod_C \Psi_C(Y_C) \\Z = \sum_Y \prod_C\Psi_C(Y_C)P(Y)=Z1C∏ΨC(YC)Z=Y∑C∏ΨC(YC)因为条件随机场为无向图模型,且势函数通常定义为指数函数,所以其联合概率分布式:P(Y)=1Z∏CΨC(YC)=1Z∏i=1Kexp[−Ei(YCi)]=1Zexp∑i原创 2020-05-10 09:12:58 · 250 阅读 · 0 评论 -
统计学习方法---隐马尔可夫模型(HMM)
基本了解什么是马尔可夫性:通俗的说,马尔可夫性就是在当前确定的条件下,未来至于当前有关而与过去无关。我们可以从两个简单的模型来了解隐马尔可夫模型:Navie bayes :朴素贝叶斯模型是用来判断二分类的问题,在该模型中,我们假设观测变量 xix_ixi是独立同分布的。隐马尔可夫模型就是在朴素贝叶斯模型的基础上将判断二分类 y(1∣0)y(1|0)y(1∣0) 变为标注问题,即 y...原创 2020-05-06 17:17:27 · 731 阅读 · 0 评论 -
统计学习方法---EM
EM算法详解基本了解什么是EM算法?EM的全称是Expectation Maximization 即期望最大化。它是用来求解含有隐变量的概率模型参数的参数估计方法。因为若概率模型含有隐变量,则无法使用极大似然估计法或贝叶斯估计法来估计参数,所以提出了通过迭代不断求解似然函数的下界逼近求解对数似然函数极大化的算法即EM算法。为什么不能用极大似然估计法或贝叶斯估计法来估计参数?对数似然函数的...原创 2020-04-27 12:04:22 · 479 阅读 · 0 评论 -
统计学习方法---AdaBoost
前言什么是集成学习?集成学习是一种机器学习方法,在集成学习中,我们训练多个弱学习器解决同样的问题,并将它们结合起来形成强学习器,获得更好的结果。这里有一个最重要的假设为:当弱学习器被正确组合时,我们可以得到更精确或更鲁棒(即容错能力更强)的模型。什么是弱学习和强学习?概率近似正确(PAC)将学习算法分为弱学习和强学习。PAC的主要思想是用一个训练误差和一个精度ϵ\epsilonϵ来控制泛化...原创 2020-04-20 19:27:15 · 385 阅读 · 0 评论 -
统计学习方法笔记---支持向量机
基本概念希尔伯特空间 H\mathcal{H}H:完备的,可能是无限维的,被赋予內积的线性空间完备的:对极限是封闭的內积:具有以下性质{对称性:<f,g> = <g,f>正定性:<f,f> ≥0 ,′=′⇔f=0线性:<r1f1+r2f2,g> = r1<f1,g>+...原创 2020-04-18 12:25:08 · 259 阅读 · 0 评论 -
统计学习方法笔记---SMO算法
前言首先我们需要知道的是SMO算法适用于求解图二次规划问题的最优解,在S详细讲解SMO之前,我们需要了解坐标上升法,该算法每一轮迭代得到多元函数中的一个参数,通过多次迭代直到收敛得到所有参数解。如Θ=[θ1,θ2,θ3]\Theta = [\theta_1, \theta_2, \theta_3]Θ=[θ1,θ2,θ3],每一轮只计算θi\theta_iθi,经过三次迭代得到Θ\Thet...原创 2020-04-02 00:02:24 · 466 阅读 · 0 评论 -
统计学习方法笔记---朴素贝叶斯
本章概要朴素贝叶斯是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y)P(X,Y)P(X,Y),然后求得后验概率分布P(Y∣X)P(Y|X)P(Y∣X),具体来说,利用训练数据P(X∣Y)P(X|Y)P(X∣Y)和P(Y)P(Y)P(Y)的估计,得到联合概率分布:P(X,Y)=P(Y)P(X∣Y)P(X,Y) = P(Y)P(X|Y)P(X,Y)=P(Y)P(X∣Y)...原创 2020-03-28 17:46:45 · 209 阅读 · 0 评论 -
统计学习方法笔记---逻辑斯蒂回归
基本概念几率(odds):一个事件发生的概率与时间不发生的概率的比值。p1−p\frac p {1-p}1−pp对数几率(log odds)logp1−plog \frac p {1-p}log1−pp特征函数:P~(x)\tilde{P}(x)P~(x)本章概要逻辑斯蒂回归模型是由以下条件概率分布表示的分类模型。逻辑斯蒂回归模型可以用于二分类问题或多分类问题。...原创 2020-03-28 15:40:54 · 494 阅读 · 0 评论 -
统计学习方法笔记---决策树
1. 基本概念熵 H(D)H(D)H(D):指混乱程度,比如若实例A的类别都是一样的,则混乱程度则为0,越混乱,熵越大经验熵 H(D)H(D)H(D):熵是有数据统计得到的情况下,称为经验熵条件经验熵 H(D∣Ck)H(D | C_k)H(D∣Ck):条件熵是由数据统计得到的情况下,称为经验条件熵信息增益 g(D,Ck)g(D, C_k)g(D,Ck):即数据集根据某特征分类前后混乱...原创 2020-03-20 20:00:45 · 238 阅读 · 0 评论 -
统计学习方法笔记---k近邻
本章概要k近邻是基本且简单的分类与回归方法,既可用于二分类,又可用于多分类。支持线性不可分的数据。K近邻法的基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的K个最近邻训练实例点,然后利用这K个训练实例点的类的多数来预测输入实例点的类。k近邻模型对应于基于训练数据集对特征空间的一个划分。K近邻法中,当训练集、距离度量、K值及分类决策规则确定后,其结果唯一确定。K邻近...原创 2020-03-13 15:53:11 · 315 阅读 · 0 评论 -
统计学习方法笔记---感知机
感知器本章概要感知器是根据输入实例的特征向量x对其进行二类分类的线性分类模型:f(x)=sign(w⋅x+b)f(x) = sign(w \cdot x + b)f(x)=sign(w⋅x+b)感知器模型对应于输入空间中的分离超平面w⋅x+b=0w \cdot x + b = 0w⋅x+b=0感知器学习的策略是极小化损失函数:minw,bL(w,b)−∑xi∈Myi(w⋅xi+...原创 2020-03-11 20:58:30 · 563 阅读 · 0 评论