5.数学基础
文章平均质量分 71
无
jediael_lu
没有
展开
-
模型的评估与选择
文章目录1、样本的划分方式1.1 留出法(hold-out)1.2 交叉验证法(cross validation)1.3 自助法(bootstrapping)2、泛化能力的度量2.1 回归问题的的性能度量2.2 分类问题的性能度量2.2.1 错误率与精度2.2.2 准确率与召回率2.2.3 ROC曲线【本文部分内容参考周志华《机器学习》韩家烨《数据挖掘:概念与技术》】我们在根据同一个数据集通过不同的的算法,或者是同一个算法的不同参数,会得到不同的模型。那我们怎么决定最终选择使用哪个模型呢?我们知道,我原创 2021-07-14 15:59:45 · 135 阅读 · 0 评论 -
最大似然估计与损失函数
关于最大似然估计法的基本原理请参考《概率论与数理统计》P152或参考《深度学习》chpt 5.5文章目录1、最大似然估计的一般理论2、最大似然估计的性质3、最大似然估计推导逻辑回归的损失函数4、线性回归的损失函数5、小结1、最大似然估计的一般理论我们希望可以有些准则可以让我们从不同的模型中得到特定函数作为好的估计。最常用的准则是最大似然估计。我们考虑一组含有m个样本的数据集X={x(1),...,x(m)}X=\{x^{(1)},...,x^{(m)}\}X={x(1),...,x(m)},独立的原创 2021-07-14 15:30:27 · 7050 阅读 · 1 评论 -
特征分解与奇异值分解
特征分解特征分解是针对方阵的,奇异值分解是应用于矩阵的。方阵AAA的特征向量是指与AAA相乘后相当于对原向量进行缩放的非0向量vvv:Av=λvAv = \lambda vAv=λv标量λ\lambdaλ称为这个特征向量对应的特征值。每个实对称矩阵都可以分解成实特征向量和实特征值:A=QΛQTA = Q\Lambda Q^TA=QΛQT其中QQQ是AAA的特征向量组成的正交矩阵,Λ\LambdaΛ是对角矩阵。所有特征值都是正数的矩阵被称为正定,所有特征值都是非负数的矩阵称为半正定。同原创 2021-07-14 15:18:54 · 394 阅读 · 0 评论 -
对角矩阵、对称矩阵、单位向量、正交矩阵
对角矩阵对角矩阵只在对角线上含有非0元素,其它位置都为0。我门用diag(v)diag(v)diag(v)表示一个对角元素由向量vvv组成的对角方阵。对角矩阵的乘法计算效率很高。我们已经见过一种特殊的对角矩阵:单位矩阵。不是所有的对角矩阵都是方阵,长方形的矩阵也有可能是对角矩阵。对称矩阵对称矩阵是转置矩阵和自己相等的矩阵:A=ATA = A^TA=AT当某些不依赖参数顺序的双参数函数生成元素时,对称矩阵经常会出现。例如,如果AAA是一个表示距离的矩阵,Ai,jA_{i,j}Ai,j表示点i原创 2021-07-14 15:17:11 · 9317 阅读 · 0 评论 -
向量的范数
有时我们需要衡量一个向量的大小,这机器学习中,我们经常使用范数来衡量向量大小。LpL^pLp范数定义为:∥x∥p=(∑i∣xi∣p)1p\|x\|_p=(\sum_i|x_i|^p)^{\frac{1}{p}}∥x∥p=(i∑∣xi∣p)p1其中p∈R,p⩾1p \in R,p \geqslant 1p∈R,p⩾1我们讨论几个特殊的范数。L2L^2L2范数又被称为欧几里得范数,表示从原点出发到向量xxx确定的点的欧几里得距离。L2L^2L2范数在机器学习中出现的非常的多,经常简化表示为∥原创 2021-07-14 15:13:07 · 606 阅读 · 0 评论 -
单位矩阵和逆矩阵
单位矩阵任何向量和单位矩阵相乘,都不会改变,即:∀x∈Rn,Inx=x\forall x \in R^n, I_n x = x∀x∈Rn,Inx=x单位矩阵的结构很简单,就是对角线为1,其它位置为0 的方阵:[100010001]\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1\end{bmatrix}⎣⎡100010001⎦⎤矩阵AAA的逆矩阵定义为:A原创 2021-07-14 15:09:26 · 2432 阅读 · 0 评论 -
矩阵与向量的乘法
矩阵乘积矩阵乘法是矩阵运算中最重要的操作之一。两个矩阵 AAA 和 BBB 的 矩阵乘积(matrix product)是第三个矩阵 CCC。为了使乘法定义良好,矩阵 AAA 的列数必须和矩阵 BBB 的行数相等。如果矩阵 AAA 的形状是 m×nm × nm×n,矩阵 BBB 的形状是 n×pn × pn×p,那么矩阵CCC 的形状是 m×pm× pm×p。我们可以通过将两个或多个矩阵并列放置以书写矩阵乘法。Ci,j=∑kAi,kBk,jC_{i,j} = \sum_k{A_{i,k}B_{k,j}原创 2021-07-14 14:59:14 · 3149 阅读 · 0 评论 -
机器学习中的向量
列向量先说一个很重要的结论:机器学习中的向量是列向量。另一个结论:用分号分隔不同的行,用逗号分隔同一行中的不同元素。在线性代数中,列向量(Column vector)是一m×1m× 1m×1的矩阵,即矩阵由一个包含mmm个元素的列组成。书写方式1:[x1x2⋮xm]\begin{bmatrix} x_1 \\ x_2 \\ \vdots\\ x_m\end{bmatrix}⎣⎢⎢⎢⎡x1x2⋮xm⎦⎥⎥⎥⎤为简化书写、方便排版起见,有时会以加上转置符号T的行向原创 2021-07-14 14:52:39 · 2466 阅读 · 0 评论 -
机器学习中的常用概率分布
1、伯努利分布伯努利分布是单个二值型随机变量的分布。它由单个参数ϕ∈[0,1]\phi \in [0, 1]ϕ∈[0,1]控制,ϕ\phiϕ给出了等于1的概率。它具有如下的一些性质:$$\begin{aligned}P(x =1) = \phi \P(x =0) = 1-\phi \P(x = x) = \phi^x (1-\phi)^{1-x} \E_{x}[x] = \phi \Var_{x}(x) = \phi(1-\phi)\end{aligned}$$2、多项式分布多原创 2021-07-13 17:11:05 · 773 阅读 · 3 评论 -
香农熵、交叉熵和相对熵
1、自信息、香农熵信息论的基本思想是一个不太可能得事件居然发生了,要比一个非常可能发生的事件发生,能提供更多的信息。定义一个事件发生的自信息为:I(x)=−logP(x)I(x) = -\log P(x)I(x)=−logP(x)P(x)P(x)P(x)为xxx事件发生的概率。如果log以自然对数e为底,则单位为奈特;如果以2为底,则单位为比特。自信息只能处理单个的输出,我们可以使用香农熵来对整个概率分布中的不确定性总量进行量化:H(x)=Ex−p[I(x)]=−Ex−p[logP(x)原创 2021-07-13 16:43:40 · 1188 阅读 · 0 评论 -
期望值、方差、标准差、协方差
1、期望值函数 f(x)f(x)f(x)关于某分布P(x)P(x)P(x)的期望(expectation)或者期望值(expected value)是指,当xxx由PPP产生时,fff作用于xxx的平均值。其实可以简单理解为f(x)f(x)f(x)在某种分布P(x)P(x)P(x)下的加权平均值。对于离散型随机变量,可以通过求和得到期望值:Ex−P[f(x)]=∑xP(x)f(x)E_{x-P}[f(x)] = \sum_x P(x)f(x)Ex−P[f(x)]=x∑P(x)f(x)举个简单原创 2021-07-13 16:21:54 · 3120 阅读 · 0 评论 -
边缘概率与条件概率
1、边缘概率当P(x,y)P(x, y)P(x,y)的每个值被写在由每行表示不同的xxx值,每列表示不同的yyy值形成的网格中时,对网格中的每行求和是很自然的事情,然后将求和的结果P(x)P(x)P(x)写在每行右边的纸的边缘处。对于连续型变量,我们需要用积分替代求和:p(x)=∫p(x,y)dy.p(x) = \int p(x, y)dy.p(x)=∫p(x,y)dy.2、条件概率在很多情况下,我们感兴趣的是某个事件,在给定其他事件发生时出现的概率。这种概率叫做条件概率。我们将给定x=x\原创 2021-07-13 16:19:20 · 4011 阅读 · 0 评论 -
概率分布:PMF与PDF
文章目录1、PMF:离散型变量和概率分布律函数2、PDF:连续型变量和概率密度函数3、CDF随机变量是可以随机的取不同值的变量。就其本身而言,一个随机变量只是对可能的状态的描述;它必须伴随着一个概率分布来指定每个状态的可能性。1、PMF:离散型变量和概率分布律函数离散型变量的概率分布可以用概率质量函数(probability mass function, PMF)来描述。我们通常用大写字母 PPP 来表示概率质量函数。通常每一个随机变量都会有一个不同的概率质量函数,并且读者必须根据随机变量来推断所使用原创 2021-07-13 16:15:10 · 3130 阅读 · 0 评论 -
频率概率与贝叶斯概率
概率论最初的发展是为了分析事件发生的频率。我们可以很容易地看出概率论,对于像在扑克牌游戏中抽出一手特定的牌这种事件的研究中,是如何使用的。这类事件往往是可以重复的。当我们说一个结果发生的概率为 ppp,就意味着如果我们反复实验 (例如,抽取一手牌) 无限次,有ppp 的比例会导致这样的结果。这种推理似乎并不立即适用于那些不可重复的命题。如果一个医生诊断了病人,并说该病人患流感的几率为 40%,这意味着非常不同的事情——我们既不能让病人有无穷多的副本,也没有任何理由去相信病人的不同副本在具有不同的潜在条件下表原创 2021-07-13 16:10:13 · 450 阅读 · 0 评论