统计学习法
文章平均质量分 92
本栏目将对统计理论、贝叶斯推理进行文章收录。
无水先生
擅长数学,能熟练应用泛函分析、统计学、随机过程、逼近论、微分几何、非欧几何(双曲、共形)等数学理论,有数学建模能力。从事图像处理二十年以上,从事人工智能行业10年以上;在船舶、通信、铁路、教育等行业开发软件产品。
展开
-
我喝醉了吗?随机游走的数学
在这里,我们关注的是一个更简单的版本,即一维随机游走,以及它奇特的数学定律。原创 2024-08-12 18:39:24 · 855 阅读 · 0 评论 -
信息论在机器学习中的实际应用
如作为一名数据科学家,你可能经常听到“信息论”这个词在机器学习的背景下出现。但究竟什么是信息论,为什么它对机器学习如此重要?在本文中,我们将探讨信息论的基础知识、其关键概念,以及它如何以简单而翔实的方式应用于机器学习。原创 2024-08-09 08:02:18 · 1506 阅读 · 0 评论 -
统计学:条件概率模型
在概率的许多应用中,不可能直接观察实验的结果;而是观察与结果相关的事件。因此,条件概率模型对于考虑和利用从观察到的事件中获得的信息至关重要。此外,条件概率模型与贝叶斯定理非常相关。在这篇博客中,我将介绍条件概率模型的基础知识,并使用参考文献 [1] 解答一些测验以熟悉该概念。原创 2024-08-07 13:45:34 · 2490 阅读 · 0 评论 -
在 Python、Bootstrap、Jackknife、Monte Carlo 中重采样分布
概率分布向我们展示了不同结果发生的概率。此分布非常有用,因为它描述了统计量的所有可能结果以及每个结果的可能性。我们可以用直方图或密度图来可视化概率分布。为了读取可视化并找到给定点的概率,我们在 x 轴上选择一个值,然后在 y 轴上找到相应的高度,这表示给定点的密度。原创 2024-08-04 15:08:55 · 1192 阅读 · 0 评论 -
数据科学项目工作流程结构化初学者指南
除了致力于发现和探索之外,要想在数据科学项目中取得成功,您必须了解数据科学工作流程并对其进行优化,以确保结果可靠,并且项目易于遵循、维护和修改。 而实现这一点的最佳和最快的方法是使用模板来构建您的项目。原创 2024-07-28 14:10:50 · 1692 阅读 · 0 评论 -
数据科学统计面试问题 -40问
正如 Josh Wills 曾经说过的那样,“数据科学家是一个比任何程序员都更擅长统计、比任何统计学家都更擅长编程的人”。统计学是数据科学中处理数据及其分析的基本工具。它提供了工具和方法,可帮助数据科学家获得见解并解释大量数据。仅仅掌握数据科学工具和语言是不够的。您还应该对某些核心统计概念和基础知识有深刻的理解。牢记这一点,这里列出了 40 个最常见的统计数据科学面试问题和答案。它将帮助您刷新对统计学关键方面的记忆,并帮助您准备包括数据科学和机器学习在内的工作面试。原创 2024-07-24 18:10:21 · 1637 阅读 · 0 评论 -
使用两种不同的方法估计几何布朗运动随机过程的参数
称为几何布朗运动(又名随机游走)的随机过程是最常见和最普遍使用的过程,因为它简单且应用广泛。在本文中,我将展示如何使用两种不同的方法估计几何布朗运动过程的参数。原创 2024-07-23 20:21:05 · 1656 阅读 · 0 评论 -
参数检验与非参数检验:使用哪一种进行假设检验?
如果你正在学习统计学,你会经常遇到两个术语——参数和非参数测试。这些术语对于任何想要追求统计和数据科学的人来说都是必不可少的。然而,很少有人理解这些术语的严重性,尤其是在处理对统计学及其在数据科学中的实施的整体理解时。原创 2024-06-26 02:34:20 · 2345 阅读 · 0 评论 -
了解统计学中不同类型的分布
统计学是理解数据的有力工具,其核心在于分布的概念。统计学中的分布有助于我们理解数据的分布方式,为各种数据集的概率和行为提供重要的见解。从熟悉的钟形曲线的正态分布到其他偏斜和重尾模式,本博客旨在解开不同类型的分布,清楚地了解它们在统计分析中的特征、应用和意义。原创 2024-06-16 00:21:05 · 2184 阅读 · 0 评论 -
混合模型方差分析
在本文中,我将讨论一种称为混合模型方差分析的方差分析变体,也称为具有重复测量的 2 因素方差分析。这种统计方法用于分析包括受试者间因素(不同组)和受试者内因素(对同一受试者的重复测量)的数据。原创 2024-06-01 21:30:15 · 2403 阅读 · 0 评论 -
【统计学精要】:使用 Python 实现的统计检验— 1/10
欢迎来到“掌握 Python 统计测试:综合指南”,它将介绍本手册中您需要熟悉使用 Python 的所有基本统计测试和分析方法。本文将为您提供统计测试及其应用的全面介绍,无论您是新手还是经验丰富的数据科学家。原创 2023-08-06 17:39:18 · 4029 阅读 · 3 评论 -
统计收敛及其结果
什么是统计收敛,如何度量迭代和精度条件,这是个复杂的综合问题,需要很大规模的数据示例,因此本文就显得冗长,不过本文给出一定建设性意见,因而极具参考意义。原创 2024-05-18 18:35:06 · 2215 阅读 · 0 评论 -
理解伽马分布
在本文中,我们将探讨统计学中的基本概率分布之一“伽马分布”。我们将揭示它在连续随机变量建模中的重要性,并将其与泊松分布进行对比。通过了解其参数,例如形状和速率,并深入研究实际示例,例如预测患者到达牙科诊所。原创 2024-05-13 18:21:36 · 3845 阅读 · 0 评论 -
无模型时间序列预测 (MLTF):一种新的非参数预测方法
对于时间序列的预测问题,我们知道有参数估计:统计法,神经网络法,也有非参数估计方法,还有一种新型算法,那就是无模型估计算法MLTF。MLTF是个什么概念,本篇将讲述它的起源,详细理论实践,请大家看专业论著。原创 2024-05-10 15:30:18 · 2166 阅读 · 0 评论 -
贝叶斯后验之旅总结
这篇博文深入探讨了贝叶斯统计的核心概念,包括后验分布、点估计和损失函数。我们将探讨如何使用网格近似、百分位区间和最高后验密度区间 (HPDI) 来总结后验分布,并讨论选择正确的损失函数以做出最佳决策的重要性。原创 2024-04-23 11:42:28 · 2340 阅读 · 0 评论 -
朗之万方程,机器学习与液体中的粒子运动
梯度下降算法是机器学习中最流行的优化技术之一。它有三种类型:批量梯度下降(GD)、随机梯度下降(SGD)和小批量梯度下降(在每次迭代中用于计算损失函数梯度的数据量不同)。原创 2024-04-02 12:16:45 · 2261 阅读 · 0 评论 -
【玻尔兹曼机】玻尔兹曼分布(01)
关于玻尔兹曼分布是最基本的统计物理方程,然而,却很不容易理解和接受。本篇用牛津大学Brian Zhang的理论推导加以理解,希望这是一个很好通向未来的台阶。原创 2024-04-02 12:14:28 · 2782 阅读 · 0 评论 -
使用 Python 模拟布朗运动(和股票价格)
本文先介绍布朗运动的概念,紧接着应用布朗方程到股票的随机斩落模型。进而用python实现,并给出各种各样的条件模型。从中烘托出股票模型的规律所在。原创 2024-04-01 11:43:50 · 3201 阅读 · 1 评论 -
探索反距离加权的深度:一种用于地理数据分析的空间插值方法
反距离加权 (IDW) 是一种广泛用于地理信息系统 (GIS) 和环境科学的空间插值技术,用于根据附近位置的值估计任何位置的缺失值。它的基本原理是直观的:离兴趣点近的位置比离目标点远的位置更相似。本文深入探讨了 IDW 的方法、应用、优势和局限性,并深入了解了其在空间分析中的重要性。原创 2024-03-01 00:19:31 · 3108 阅读 · 0 评论 -
全面概述:啥是广义线性模型 (GLM)?
广义线性模型 (GLM) 是一个强大的统计框架,它扩展了经典线性回归模型以处理各种数据类型和分布。1970 年代,统计学家 John Nelder 和 Robert Wedderburn 引入了 GLM,已成为从流行病学和金融学到生态学和社会科学等领域不可或缺的工具。本文全面概述了 GLM,探讨了它们的基本概念、关键组件和实际应用。原创 2024-02-26 01:19:58 · 9000 阅读 · 0 评论 -
比较:斯皮尔曼的等级相关 & 皮尔逊相关性
斯皮尔曼秩相关系数用于检查两个数值变量之间的关系。由于方法的性质,这些变量应采用顺序、间隔或比率类型。因为,斯皮尔斯曼与数字无关,而是与数字的等级相关。皮尔逊相关检验测量两个连续变量之间线性相关性的强度和方向。在此测试中,我们计算r值,称为皮尔逊相关系数。由于这个值,我们将能够评论相关性的方向和强度。 本文将从各自原理上讲述,读者可以看出其异同。原创 2024-02-15 01:20:08 · 2633 阅读 · 0 评论 -
统计中集中趋势的衡量标准
统计中的中心趋势是用于表示大量数值数据的中间值或中心值的数值。这些获得的数值在统计学中称为中心值或平均值。 任何统计数据或序列的中心值或平均值是代表整个数据或其相关频率分布的变量的值。这样的值具有重要意义,因为它描绘了整个数据的性质或特征,否则很难观察到。原创 2024-01-23 06:29:47 · 2368 阅读 · 0 评论 -
【统计基础】贝叶斯理论和神经网络
贝叶斯网络是最基础的神经网络理论,本文不是最基础的概念性论文,而是有一定基础,最起码概念建立起来后的说理。这种说理能够启发应用,也能够促进创新思维,建议保存慢慢品尝。原创 2023-07-20 11:22:38 · 5821 阅读 · 0 评论 -
概率测度理论方法(第 1 部分)
概率的应用范围广泛到经济学、量子力学、生物学甚至政治学,可以说是数学最重要的分支之一。然而,普遍教授和广泛接受的概率版本错过了一些令人难以置信的令人满意的直觉。在本文中,我们将利用这种直觉。为了做到这一点,我们求助于测度理论。对于新手读者来说,测量论,简单来说,就是对尺寸的研究。原创 2023-12-08 09:09:57 · 3350 阅读 · 0 评论 -
统计学习笔记 第 5 部分:破碎系数
正如本系列之前的文章所述,统计学习理论为理解机器学习推理问题提供了一个概率框架。用数学术语来说,统计学习理论的基本目标可以表述为严格数学表述。原创 2023-11-07 10:50:43 · 2303 阅读 · 0 评论 -
统计学习笔记第 1 部分:Hoeffding 的不等式推导与模拟
霍夫丁不等式是数理统计和机器学习 (ML) 中的一个重要的集中不等式,广泛应用于统计学习理论等理论领域以及强化学习等应用领域。原创 2023-11-07 10:22:43 · 2582 阅读 · 0 评论 -
【基础理论】描述性统计基本概念
统计学是数学的一个分支,涉及数据的收集、解释、组织和解释。本博客旨在回答以下问题:1. 什么是描述性统计?2. 描述性统计的类型?3. 集中趋势的度量(平均值、中位数、模式)4. 散布/离差度量(标准差、平均偏差、方差、百分位数、四分位数、四分位数间距)5. 什么是偏度?6. 什么是峰度?7. 什么是相关性?今天,让我们一劳永逸地理解描述性统计数据。让我们开始吧!原创 2023-07-16 10:59:15 · 4591 阅读 · 0 评论 -
【人工智能数学:01 高等概率论】(1)通俗解释,啥叫随机变量?
随机过程概念:1)随机过程所支撑的条件(概率空间,时间序列)2)确定和不确定,对单独事件不确定,但长期观察是确定的。3)代数原创 2022-03-11 14:54:34 · 4500 阅读 · 0 评论 -
机器学习5:关于期望的深入讨论
上面文章,是站在常识的立场说期望,让大家“感觉”期望的存在,我认为该篇文章实际上的效用是为期望找到一个物理场景;概率论本不难,如果学成直觉,就必须开拓出各种场景,即思想实验,从中悟出真知,这也是学习为什么快乐的原因。原创 2022-03-24 11:54:37 · 4262 阅读 · 0 评论 -
随机过程:高斯函数导数、梯度
高斯函数是典型的正态分布函数,工程上非常常见。对于普通工程人员,掌握一维高斯函数显得少,而掌握多维的也不常用,一般掌握二维高斯较为合适。对这种函数的基本认知包括,导数、积分、n阶矩等,本篇谈一维和二维高斯函数的导数。原创 2022-03-04 08:39:40 · 10706 阅读 · 0 评论