![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习推导
手推机器学习公式
嘻哈过路人
这个作者很懒,什么都没留下…
展开
-
概率图模型(3)——马尔可夫随机场
如果图退化成线性链的方式,则得到马尔可夫模型;因为每个结点都是随机变量,将其看成各个时刻(或空间)的相关变化,以随机过程的视角,则可以看成是马尔可夫过程。若上述网络是无向的,则是无向图模型,又称马尔可夫随机场或者马尔可夫网络。...原创 2020-04-24 14:57:07 · 362 阅读 · 0 评论 -
概率图模型(2)——贝叶斯网络
贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于1985年由Judea Pearl首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图(DAG)。贝叶斯网络的有向无环图中的节点表示随机变量{X1,X2,…...原创 2020-04-23 15:57:27 · 519 阅读 · 0 评论 -
概率图模型(1)——背景
概率图模型大致可以分为两种,directed graphical model(又称贝叶斯网络)和undirected graphical model(又称马尔可夫随机场)。隐马尔可夫模型(HMM)是语音识别的支柱模型,高斯混合模型(GMM)及其变种K-means是数据聚类的最基本模型,条件随机场(CRF)广泛应用于自然语言处理(如词性标注,命名实体识别),Ising模型获得过诺贝尔奖,话题模型在...原创 2020-04-23 15:53:33 · 406 阅读 · 0 评论 -
指数族分布(3)——最大熵角度
最大熵的角度理解指数分布族:最大熵原理认为,学习概率模型时,在所有的概率模型中,熵最大的模型是最好的模型。指数族分布满足最大熵原理,在满足约束条件下,如果没有更多的信息,则那些不确定的部分概率相等时熵最大。也就是说在满足已知事实(约束)的情况下指数族分布的熵最大。(离散型)...原创 2020-04-22 13:44:12 · 1947 阅读 · 1 评论 -
指数族分布(2)——对数配分函数和MLE与充分统计量
一、对数配分函数与充分统计量二、最大似然估计与充分统计量原创 2020-04-21 16:16:51 · 2426 阅读 · 0 评论 -
指数族分布(1)——背景及高斯分布指数族形式
一、背景机器学习经常要做这样一件事:给定一组训练数据 D,我们希望通过 D 得到我们研究的空间的概率分布。但是在没有任何假设的情况下,直接学习概率分布是不现实的。直接学习概率分布最简单的方法,就是把空间分成很多很多小的单元,然后统计样本落在每个单元的频率,作为每个单元的概率分布。但是这种方法会面临着数据不足、有噪音、存储能力受限等问题。所以在大多数情况下,我们都会人为指定某种概率分布的形式(...原创 2020-04-21 16:13:57 · 3214 阅读 · 0 评论 -
SVM(6)——序列最小最优化算法(SMO)代码
凸二次规划问题具有全局最优解,但当训练样本很大时,往往会变得非常低效。SMO的基本思路是:如果所有变量都满足KKT条件时,就可以得到这个最优化问题的解。一、代码根据李航统计学习方法第一版的公式进行编写,与sklearn的svm进行对比import numpy as npfrom sklearn import datasetsfrom sklearn.model_selection imp...原创 2020-04-20 13:01:32 · 1048 阅读 · 0 评论 -
SVM(5)——核函数
支持向量机通过某非线性变换 φ( x) ,将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 K(x, x′) ,它恰好等于在高维空间中这个内积,即K( x, x′) =<φ( x) ⋅φ( x′) > 。那么支持向量机就不用计算复杂的非线性变换,而由这个函数 K(x, x′) 直接得到非线性变换的内积,使大大简化...原创 2020-04-13 19:54:28 · 1591 阅读 · 0 评论 -
SVM(4)——软间隔代码
C相当于惩罚松弛变量,C越大,希望松弛变量接近0,即对误分类的惩罚增大,趋向于对训练集全分对的情况,这样对训练集测试时准确率很高,但泛化能力弱。C值小,对误分类的惩罚减小,允许容错,将他们当成噪声点,泛化能力较强。一、代码import numpy as npfrom sklearn import datasetsfrom sklearn.pipeline import Pipelinef...原创 2020-04-12 16:10:03 · 2050 阅读 · 0 评论 -
SVM(3)——硬间隔代码
一、代码import numpy as npimport matplotlib.pyplot as pltfrom sklearn.svm import SVCfrom sklearn import datasetsimport pandas as pdiris = datasets.load_iris()df = pd.DataFrame(iris.data, columns=i...原创 2020-04-11 22:39:55 · 1164 阅读 · 0 评论 -
SVM(2)——soft-margin(软间隔)
hard-margin就是,一组数据样本是可以实现线性可分soft-margin就是,数据样本不是实际的线性可分,而是近似线性可分(可能有噪点)原创 2020-04-10 13:47:31 · 1324 阅读 · 0 评论 -
SVM(1)——hard-margin(硬间隔)
SVM有三宝:间隔,对偶,核方法推导SVM硬间隔公式:原创 2020-04-09 18:10:47 · 1434 阅读 · 0 评论 -
PCA降维3—SVD角度—PCA与PCoA(含代码)
一、推导二、PCA降维计算步骤原创 2020-04-08 22:39:07 · 1312 阅读 · 0 评论 -
PCA降维2——最大投影方差与最小重构代价
一个中心:原始特征空间的重构两个基本点:最大投影方差,最小重构代价推导过程:原创 2020-04-08 22:20:37 · 1320 阅读 · 0 评论 -
PCA降维1——背景与数学基础
原创 2020-04-06 14:28:05 · 1331 阅读 · 0 评论 -
线性分类5——朴素贝叶斯
它是一种典型的生成学习方法,其生成方法是由训练数据学习联合概率分布P(X,Y),朴素贝叶斯的基本假设是条件独立性。就是每个参数变量的概率分布不互相影响,相互独立。...原创 2020-04-06 11:31:33 · 1370 阅读 · 0 评论 -
线性分类4——高斯判别分析(含代码)
一、推导二、代码import numpy as npimport pandas as pdimport sklearn.datasetsiris = sklearn.datasets.load_iris()X = iris.data[:, 0:2]Y = np.array(pd.get_dummies(iris.target)[0])def GDA(X, Y): ...原创 2020-04-05 15:46:31 · 1798 阅读 · 0 评论 -
线性分类3——逻辑回归(含代码)
一、推导过程二、代码import numpy as npimport matplotlib.pyplot as pltimport sklearn.datasetsimport pandas as pdiris = sklearn.datasets.load_iris()# 我们用sklaern中的target和feature_names两个keydf = pd.DataFra...原创 2020-04-04 17:00:54 · 1676 阅读 · 0 评论 -
线性分类2——线性判别分析(LDA)
原创 2020-04-04 12:45:35 · 1517 阅读 · 0 评论 -
线性分类1——感知机(含代码)
一、线性回归与线性分类综述二、感知机三、感知机代码:import numpy as npimport matplotlib.pyplot as pltimport sklearn.datasetsimport pandas as pdiris = sklearn.datasets.load_iris()# 我们用sklaern中的target和feature_names两个k...原创 2020-04-03 21:02:54 · 1466 阅读 · 0 评论 -
线性回归2——正则化(含代码)
一、频率角度与贝叶斯角度二、代码'''我们用多项式来拟合y=sin4x'''import numpy as npfrom scipy.optimize import leastsqimport matplotlib.pyplot as plt# 目标函数def real_func(x): return np.sin(4*x)# 多项式def fake_func(w...原创 2020-04-03 13:02:36 · 2627 阅读 · 1 评论 -
线性回归1——最小二乘法(含代码)
我们从最小二乘法的 矩阵表达,几何意义,概率视角进行分析。一、矩阵表达二、几何意义三、概率视角四、代码原创 2020-04-02 14:37:45 · 2541 阅读 · 0 评论 -
高斯分布4——联合概率分布
x满足多维高斯分布,y是x的线性组合加上噪声原创 2020-04-02 12:31:46 · 8187 阅读 · 0 评论 -
高斯分布3——边缘概率与条件概率
一、推导过程:二、结果:边缘分布x1,x2 各自依然服从 μi,写反差矩阵 Σii 的多元高斯分布;条件概率分布给定 xj 求 xi 的分布:μi|j=μi+ΣijΣ−1jj(xj−μj)Σi|j=Σjj−ΣTijΣ−1iiΣij...原创 2020-04-01 21:05:13 · 3548 阅读 · 3 评论 -
高斯分布2——多维高斯分布
惯例依旧是手写版本文推导了为什么二维高斯分布等高线是圆或椭圆,且等高线上的概率相等!原创 2020-04-01 13:52:11 · 2755 阅读 · 1 评论 -
高斯分布1——极大似然估计
依旧是手写版,编辑公式太麻烦了……一、频率派VS贝叶斯派二、高斯分布——极大似然估计例如:一个箱子里有1个黑球,99个白球;另一个箱子里有99个黑球,1个白球,那么我随机拿出一个黑球,这个黑球是从哪个箱子取出的?这个黑球显然最可能从第二个箱子取出,这个最可能就是“最大似然”最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。...原创 2020-03-31 16:33:56 · 4349 阅读 · 2 评论