aml
文章平均质量分 89
苏西月
爱丁堡大学就读学生
展开
-
Logistic Regression
的一个常见理解:只要输出fx;ww⊤ϕx大于 0,就可以预测y1(正类);如果小于 0,就预测y0(负类)。这种情况下,虽然fx;w是无界的,但我们可以简单地通过大于或小于 0 的符号来决定分类结果。确实,从分类的角度看,输出fx;wfx;w0y1fx;w0y0。原创 2024-10-09 04:22:56 · 722 阅读 · 0 评论 -
Linear Classification Model
线性分类模型通过线性组合输入特征,再通过阈值判断最终的分类结果。模型的核心是通过权重参数w\mathbf{w}w来衡量每个特征的重要性,并根据线性函数的输出值将数据点划分到不同的类别。原创 2024-10-08 22:26:39 · 636 阅读 · 0 评论 -
生成式分类器 和 判别式分类器
生成式分类器试图全面建模特征向量。原创 2024-10-08 22:21:09 · 418 阅读 · 0 评论 -
**单变量高斯分布**和**对角协方差矩阵**
在特定条件下,和确实是等价的。。,而。是用来描述单个实数随机变量x的概率分布。px∣μσ22πσ21exp−2σ2x−μ2其中,μ是均值,σ2是方差。在模型中,如果特征是连续实数值的,例如xd∈R,我们可以假设每个特征xd在给定类别y下服从一个。这意味着我们会为每个特征单独建模,假设它们的分布相互独立。具体来说,对于类别c的每个特征xdpxd∣ycNxd∣μdcσdc2。原创 2024-10-08 22:11:08 · 549 阅读 · 0 评论 -
识别spam的简单方法
在检测邮件是否是 垃圾邮件(spam) 时,我们通常会使用分类模型来解决这个问题。这是一个典型的二分类问题,我们的任务是根据邮件的内容、特征来判断邮件是否是垃圾邮件。下面是处理这个问题的一般步骤及逻辑顺序:首先,我们需要明确问题是什么:明确了问题之后,我们需要把目标转化为一个可操作的任务,即构建一个模型来进行 垃圾邮件分类。在拿到邮件数据后,通常这些数据是以文本形式存在的。我们需要对这些数据进行预处理,以便模型可以理解并利用这些数据。特征工程的目的是从原始数据中提取有意义的特征,帮助模型更好地识别垃圾邮件。原创 2024-10-08 21:42:59 · 363 阅读 · 0 评论 -
LDA和QDA
具体来说,LDA 假设特征的分布是高斯分布,并且各类别的协方差矩阵相同,这样当我们求解分类决策边界时,最终得到的分类边界是一个线性方程,因此分类边界是线性的。QDA 中,每个类别有自己的协方差矩阵 Σ 𝑘 ,因此模型会更灵活,能够适应类别间不同的分布形状和方向。这意味着对于不同的类别,特征之间的方差和协方差结构可以是不同的。因此,在 QDA 中,协方差矩阵是分别对每个类别的数据进行计算的。中,虽然协方差矩阵假设所有类别是相同的,但这并不意味着我们可以随便选择一个类别来计算协方差矩阵。原创 2024-10-08 21:00:37 · 707 阅读 · 0 评论 -
独立性和条件独立性的详细解释
条件独立性是在某些条件下(即给定一个或多个变量的值)的独立性。两个变量在给定某些条件的情况下是独立的,但在没有这些条件的情况下,它们可能不是独立的。独立性可以理解为两个变量在任何情况下都不会相互影响,而条件独立性则意味着在某些条件已知的情况下,两个变量之间不再有额外的关联。如果两个变量是独立的,那么它们的联合分布可以简单地表示为各自边际分布的乘积。条件独立性是指在给定某个随机变量的情况下,另两个随机变量之间的独立性。表示第二次掷出正面。的联合分布可以分解为它们各自的条件分布的乘积。的条件下是条件独立的。原创 2024-10-08 20:47:20 · 572 阅读 · 0 评论 -
朴素贝叶斯
朴素贝叶斯模型通过假设特征在给定类别的条件下相互独立,简化了计算复杂度,并因此在许多实际应用中(如文本分类、垃圾邮件过滤等)表现良好。这是因为它关注的是概率的相对大小,而不是绝对值,因此即使假设不完全成立,算法依然能够捕捉到类别的核心信息。由于只需要估计单个特征的条件概率,因此即使在训练数据较少的情况下,朴素贝叶斯也能有效地工作。:由于假设特征是条件独立的,朴素贝叶斯的计算复杂度较低。这种假设被称为“朴素”(naive),是因为在现实世界中的数据中,特征通常不是独立的。特征在给定类别标签的条件下是。原创 2024-10-08 20:39:22 · 786 阅读 · 0 评论 -
Representing the Class Conditional Density
这种方法的好处是,只需要为所有类别估计一个协方差矩阵,参数的数量为。,只对角线上元素(每个特征的方差)进行建模。可以使用正则化技术防止在估计协方差矩阵时过拟合。使用多元高斯模型的主要挑战在于为每个类别的协方差矩阵。另一种方法是假设所有类别共用同一个协方差矩阵,即。是一个正则化参数,用于控制估计的协方差矩阵。由于矩阵是对称的,因此只需要估计。估计参数的数量,特别是在高维数据中。,但代价是假设特征之间没有相关性。在估计协方差矩阵之前,你可以使用像。,因为矩阵的一半是镜像对称的)。,进而减少需要估计的参数数量。原创 2024-10-08 20:38:05 · 763 阅读 · 0 评论 -
为什么估计独立的协方差矩阵会导致二次决策边界,而假设相同的协方差矩阵会导致线性决策边界
造成决策边界差异的关键原因在于判别函数中的二次项。当协方差矩阵相等时,这些二次项会相互抵消,结果是。原创 2024-10-08 20:02:12 · 729 阅读 · 0 评论 -
为什么在负对数似然的计算中只考虑似然和先验,而不考虑证据(边缘似然)
在这篇详细解释中,我们将深入探讨这一选择背后的原因,澄清每个组成部分在参数估计和模型训练中的角色。通过专注于这些项,我们有效地最大化了给定模型参数下的观测数据的似然,而不需要多余的计算开销。在概率模型的参数估计中,尤其是在分类和贝叶斯推断的上下文中,我们经常遇到涉及。在最大似然估计(MLE)中,我们的目标是找到最大化观察数据似然的参数。在 NLL 中包含证据将需要额外的计算,而这些计算对监督学习任务中的。是已知的(如在监督学习中),我们更感兴趣的是条件似然。的梯度没有贡献,所以在计算上省略它是合乎逻辑的。原创 2024-10-08 20:00:27 · 428 阅读 · 0 评论 -
协方差矩阵的性质
是统计学、概率论和多变量数据分析中的一个基本概念。它反映了一个多变量随机向量中每个变量的方差以及变量对之间的协方差。理解协方差矩阵的性质对于机器学习、金融、工程及其他领域中的多变量数据分析至关重要。协方差矩阵是多变量统计学的基石,它不仅包含各个变量的方差,还包含它们之间的协方差。它的性质包括是对称的、正半定的方阵,并且有。理解这些性质能够更有效地进行建模、分析和解释复杂的数据集,这在机器学习、金融等多个领域中至关重要。:在协方差矩阵中,主对角线上的元素 (的增加,自由参数的数量呈二次增长。原创 2024-10-08 19:44:32 · 604 阅读 · 0 评论 -
多元高斯分布的概率密度函数 (PDF) 的详细解释
是将一维(单变量)正态分布推广到更高维度的结果。在统计学和机器学习中,多元高斯分布对于建模具有线性关系的多变量数据至关重要。其概率密度函数提供了对分布行为的全面描述,通过协方差矩阵涵盖了变量的个体特征及其相互关系。给定另一个变量的情况下,多元高斯的条件分布也是高斯分布。在更高维度中,PDF 形成椭球(等值面),在这些椭球上概率密度是常数。是多元高斯分布,那么其分量的任意线性组合也是正态分布。多元高斯随机向量的仿射变换结果也是多元高斯分布。,它量化了变量的不确定性,并用于计算指数中的。原创 2024-10-08 19:40:45 · 523 阅读 · 0 评论 -
如何计算协方差矩阵
这表明数据中两个变量之间高度线性相关,几乎是线性依赖的。对于一般数据,协方差矩阵应该是正定的。反映的是多个变量之间的相互关系(包括变量本身的方差和它们之间的协方差)。这是协方差定义的性质,导致协方差矩阵的对角线下和对角线上元素相等。假设我们有一个 3 个样本的二维数据集,表示为矩阵。如果行列式为 0,严格来说这个矩阵并不是正定的,而是。个变量之间的协方差。:由上面的计算可以看出,协方差矩阵。假设我们有一个数据集,其中有。现在,我们可以得到协方差矩阵。是变量集,协方差矩阵。个变量之间的协方差。原创 2024-10-08 19:36:35 · 339 阅读 · 0 评论 -
负对数似然(Negative Log Likelihood, NLL)的理解:推导与应用
理解如何推导和使用NLL是从事数据分析、统计学或机器学习工作的人必备的技能,因为它在许多模型和方法中起着关键作用。直接处理似然函数在数值上可能会不稳定,特别是当数据量很大时,因为会涉及到很多概率的乘积(这些概率可能是非常小的数)。它是概率理论和优化的桥梁,帮助我们通过找到使观测数据最有可能的参数来拟合模型。在机器学习模型中,特别是在分类任务中,NLL常常作为训练过程中要最小化的损失函数。用来衡量在不同的模型参数下,观测到给定数据的可能性有多大。在参数估计中,我们的目标是找到能够最大化似然函数的参数值。原创 2024-10-08 19:09:30 · 833 阅读 · 0 评论 -
分类问题简单描述
证据项PxP(x)Px是贝叶斯定理中的归一化因子,确保计算出的后验概率Py∣xP(y|x)Py∣x是一个有效的概率分布。它表示在所有可能类别yyy下,观测到数据xxx的总概率。Px∑yPx∣yPyPxy∑Px∣yPy证据项是通过对所有可能的类别标签yyy进行边缘化得到的,它表示了观测到数据xxx的总可能性。证据项确保了贝叶斯定理中计算出的后验概率是合理的,并通过归一化让所有类别的后验概率之和为 1。原创 2024-09-23 03:59:06 · 702 阅读 · 0 评论 -
简要叙述:强化学习,监督,无监督
强化学习:通过与环境交互,智能体通过试错学习最优策略,以最大化长期累积奖励。无监督学习:在没有标签的情况下,发现数据中的结构,常用于聚类、降维和异常检测。监督学习:在有标签的数据集上训练模型,学习输入到输出的映射,常用于分类和回归问题。原创 2024-10-08 18:34:50 · 612 阅读 · 0 评论