![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
概率与统计
文章平均质量分 70
饕子
我是北大信息管理系大数据管理与应用方向学生,我对人工智能、计算机视觉、计算机图形学、文本挖掘、搜索引擎、机器学习(深度学习)、计算神经科学、知识图谱、NLP等方向感兴趣。
展开
-
活用CDF:统计学中的隐藏英雄
累积分布函数或许不是最光鲜亮丽的统计学概念,但它的实用性和灵活性使其成为任何数据科学家和统计学家工具箱中不可或缺的工具。通过今天的探索,希望你已经对CDF有了更深入的理解,并准备好在自己的数据分析项目中应用它。原创 2024-01-28 01:55:21 · 908 阅读 · 0 评论 -
泊松分布:数学中的意外之喜
泊松分布,以法国数学家西莫恩·德尼·泊松命名,是描述在一定时间内发生某事件次数的概率分布。这听起来可能有点抽象,但别担心,我来用一个简单的例子解释。假设你经营着一个小而受欢迎的网上杂货店。根据过去的数据,你知道平均每小时会有3个顾客下单。那么,在接下来的一小时内恰好有5个顾客下单的概率是多少呢?这就是泊松分布登场的时刻。泊松分布是数学中一个美妙而强大的工具,它提醒我们,即使在最不可预测的情况下,数学仍然能够提供深刻的见解。所以,下次当你想探索周围世界的奥秘时,不妨以泊松分布为指导。原创 2024-01-27 23:29:34 · 1349 阅读 · 0 评论 -
Unbiased Estimator,超全解释
假设要对一个未知参数θ\thetaθ进行估计,使用的估计量为θθ。EθθEθθ则称θθ是θ\thetaθ的一个无偏估计。这里EθEθ表示θθ的数学期望。无偏估计是统计学和概率论中的重要概念之一。选用无偏估计能够保证估计结果更为准确和可靠。常用的构造无偏估计的方法包括样本均值、样本方差和无偏样本比例估计等。但需要注意的是,无偏估计不一定是最优的估计方法。在实际应用中,还需要考虑估计量的方差、偏差和均方误差等指标,综合评估估计方法的性能和优劣,并选择最优估计方法。原创 2023-06-15 08:10:39 · 1019 阅读 · 0 评论 -
偏相关学习笔记
偏相关是一种消除多元线性回归模型中自变量之间互相影响的方法,通过控制其他变量,计算两个变量之间的关系强度。在因果推断中,偏相关可以用于判断两个变量之间是否存在因果关系。在实际应用中,偏相关可以帮助我们探究两个变量之间的关系是否真正有意义。原创 2023-06-10 23:19:51 · 1122 阅读 · 0 评论 -
析因设计方差分析(单独效应,主效应,交互效应)
本文介绍了析因设计方差分析的概念和基本原理,包括单独效应、主效应和交互效应等内容。通过理解这些概念和方法,我们可以更好地设计实验并正确地进行统计分析,从而准确地评估不同因素对于处理结果的影响。原创 2023-06-10 23:07:20 · 2601 阅读 · 0 评论 -
维尔克松符号等级检验
维尔克松符号等级检验是一种非常重要的假设检验方法。在日常工作和科学研究中,经常会出现需要检验两组数据是否独立的情况。通过掌握维尔克松符号等级检验的原理、应用场景以及具体步骤,可以更加准确地判断两组数据是否独立,从而为决策提供依据。参考文献:[2] 路小明. 统计学[M]. 高等教育出版社, 2013.[3] 刘玉莲, 罗东林, 卢浩建. 非参数统计分析软件及其应用[M]. 化学工业出版社, 2016.原创 2023-06-10 23:06:15 · 153 阅读 · 0 评论 -
层次谬误学习笔记
层次谬误是指在统计分析过程中错误地将低级别数据应用于高级别问题的错误。它通常发生在数据集的层次结构复杂、多层嵌套的情况下。例如,在社会科学研究中,研究者可能使用个体的数据来研究群体问题,这就是一种常见的层次谬误。层次谬误还可以表现为在分析高级别数据时忽略了低级别的数据。例如,在研究人口增长率时,如果只考虑整体的增长率,而忽略了不同年龄段的增长率,则存在层次谬误。层次谬误是一种常见的统计学错误,在数据集具有层次结构的情况下容易发生。原创 2023-06-10 22:54:18 · 616 阅读 · 0 评论 -
分析单元和抽样单元
分析单元是指在研究中需要分析的对象或者是数据的基本单位。例如,在一项调查中,如果研究重点是人口结构,那么分析单元就是人;如果研究重点是企业经济状况,那么分析单元就是企业。在研究过程中选择正确的分析单元非常重要。特定性:分析单元应该与研究问题密切相关,能够反映研究对象的本质属性;独立性:分析单元应该是相互独立的,一个分析单元的结果不会影响其他分析单元的结果;代表性:分析单元应该能够代表整个研究对象的特征;抽样单元是指在调查或者实验中需要选择样本的最小单位。原创 2023-06-10 22:44:52 · 848 阅读 · 0 评论 -
假设检验学习笔记
假设检验是统计学中非常重要的概念,它可以帮助我们对数据进行推断和验证。在进行假设检验时,我们需要逐步进行假设提出、显著性水平确定、检验统计量计算、p值计算以及结论判断等步骤。熟练掌握假设检验的方法和步骤可以有效提高我们对数据的分析能力。原创 2023-06-08 10:50:32 · 81 阅读 · 0 评论 -
渐进显著性学习笔记
渐进显著性是在样本量足够大时,统计推断结果具有显著性的概率逐渐趋近于1或0的现象。中心极限定理表明,当样本量足够大时,样本均值的分布将近似于正态分布。大数定律表明,当样本量足够大时,样本均值将收敛于总体均值。渐进显著性通常用于判断样本量是否足够大以进行统计推断,并确保推断结果具有足够的准确性和可靠性。原创 2023-06-08 10:36:09 · 1386 阅读 · 0 评论 -
sig值、T值、P值、F值是什么意思
Sig值、T值、P值和F值都是统计学中非常重要的指标。T值用于比较一个或两个样本的均值是否存在显著性差异,P值代表根据零假设得到观察到的统计量或更极端情况发生的概率,Sig值是指显著性水平,而F值用于比较两个或更多样本方差之间的差异是否显著。在统计学研究中,了解这些指标的含义和用途非常重要。原创 2023-06-08 10:22:03 · 10726 阅读 · 1 评论 -
F检验学习笔记
F检验是一种常见的统计推断方法,用于比较样本方差之间的差异是否显著。单因素方差分析用于比较一个因素对应的多个样本之间的差异是否显著;双因素方差分析用于比较两个因素对应的多个样本之间的差异是否显著。在进行F检验时,需要提出假设,计算F值和p值,并根据显著性水平做出结论。原创 2023-06-08 10:16:14 · 441 阅读 · 0 评论 -
t检验学习笔记
t检验是一种常见的统计推断方法,用于比较样本均值之间的差异是否显著。单样本t检验用于比较一个样本的均值是否与给定的总体均值不同;独立样本t检验用于比较两个不同的样本的均值是否存在显著差异;配对样本t检验用于比较来自同一组人的两个相关样本的均值是否存在显著差异。在进行t检验时,需要提出假设,计算t值和p值,并根据显著性水平做出结论。原创 2023-06-08 10:11:00 · 103 阅读 · 0 评论 -
二元移动窗口函数
本文介绍了二元移动窗口函数的基本概念和应用,以及如何使用Python中的scipy库来进行二元移动窗口函数。希望对大家有所帮助!原创 2023-05-22 21:43:53 · 43 阅读 · 0 评论 -
OHLC重采样学习笔记
本文介绍了OHLC重采样的基本概念和应用,以及如何使用Python中的pandas库来进行OHLC重采样。希望对大家有所帮助!原创 2023-05-22 21:42:17 · 671 阅读 · 0 评论 -
截面数据学习笔记
截面数据是统计学中一种常见的数据类型,通常用于描述人口统计学、社会学等领域中各种随机变量在某一时刻的特征情况。截面数据的描述统计方法包括计算中心位置、离散程度和分布情况等指标,而推断统计方法则主要包括参数估计和假设检验等技术。熟练掌握截面数据的统计学基础知识,对于进行数据分析和应用都有着重要的指导作用。原创 2023-05-22 17:07:00 · 2062 阅读 · 0 评论 -
随机实验学习笔记
随机实验是医学研究和社会科学研究中最常用的研究设计之一,它通过随机分配研究对象到处理组和对照组,比较两组的结果来评估治疗效果或政策效果。随机实验设计需要考虑多个因素,包括样本选择、随机化方案、对照组设计等。在数据分析时需要进行描述性统计分析、差异分析和效应估计等分析,以得出有效的结论。原创 2023-05-22 16:49:39 · 292 阅读 · 0 评论 -
工具变量法学习笔记
工具变量法是解决内生性问题的一种常用方法,它通过引入“工具变量”来消除自变量与误差之间的相关性,从而得到更加准确和可靠的估计结果。在实践中,需要选择合适的工具变量,并结合对经济理论的深刻理解和实际数据的特点进行应用。原创 2023-05-22 16:36:41 · 4471 阅读 · 0 评论 -
自相关模型学习笔记
自回归模型是一种用于描述时间序列在不同时刻之间相关性的线性模型。它可以帮助我们了解时间序列的性质和特征,进而进行预测和分析。在实际应用中,需要结合具体的问题和数据特点选择合适的自回归模型,并进行相应的模型识别、参数估计和模型检验等后续处理。原创 2023-05-22 16:24:40 · 524 阅读 · 0 评论 -
自相关函数学习笔记
自相关函数是时间序列分析中的重要概念,用于描述时间序列在不同时刻之间的相关性。它可以帮助我们了解时间序列的性质和特征,进而进行预测和分析。在实际应用中,需要结合具体的问题和数据特点选择合适的自相关函数计算方法和模型,并进行相应的模型诊断、预测和分析等后续处理。原创 2023-05-22 16:19:56 · 3085 阅读 · 0 评论 -
协整检验学习笔记
协整检验是用来检验两个或多个时间序列之间是否存在稳定的线性关系的方法。它可以帮助我们找到时间序列数据中的规律和趋势,并进而进行预测和决策。在实际应用中,需要根据具体的数据特点选择合适的检验方法和模型,以提高建模和预测的准确性。原创 2023-05-22 16:18:32 · 4243 阅读 · 0 评论 -
格兰杰因果推断学习笔记
格兰杰因果推断是一种基于概率论的因果推断方法,它通过观察变量之间的条件概率分布来确定它们之间的因果关系。在进行因果推断时,需要采用特定的算法来建立因果图模型,并进行派遣操作。因果推断在医疗诊断、政策决策等领域具有广泛的应用前景。原创 2023-05-22 15:56:06 · 484 阅读 · 0 评论 -
多元线性回归:共线性分析学习笔记
共线性指的是自变量之间存在高度相关性的情况。如果两个或更多自变量高度相关,则很难区分它们对因变量的影响。回归系数估计:共线性可以导致回归系数的标准误差增加,使得回归系数难以估计。模型解释:共线性可以使得模型中自变量的作用难以解释。预测精度:共线性可以降低模型的预测精度。共线性是自变量之间存在相关性的情况。共线性可能会导致模型的不稳定,使得回归系数难以估计。共线性分析包括散点图矩阵、相关系数矩阵和方差膨胀因子。在进行多元线性回归时,应该注意共线性问题,避免影响模型的质量。原创 2023-05-18 20:28:32 · 878 阅读 · 0 评论 -
统计:特征根学习笔记
本文介绍了统计中特征根的基本概念、求解方法以及其在实际问题中的应用。通过利用特征根分解,我们可以更好地理解矩阵和向量之间的关系,进而应用于数据降维、网络分析和物理学等领域,为实际问题的解决提供帮助。原创 2023-05-18 20:27:38 · 2152 阅读 · 0 评论 -
模型检验学习笔记
模型检验是机器学习和统计学中的重要环节,它可以帮助我们评估所建立模型的合理性和预测能力。在不同的应用场景下,模型检验的方法也不同,需要根据实际情况选择合适的方法。原创 2023-05-18 20:26:28 · 331 阅读 · 0 评论 -
系数检验学习笔记
本文介绍了系数检验的基本概念、常见方法和应用场景。通过利用系数检验,我们可以更好地理解解释变量对结果变量的影响程度,从而更好地分析数据和进行相关研究,为实际问题的解决提供帮助。原创 2023-05-18 20:26:18 · 451 阅读 · 0 评论 -
自由度学习笔记
自由度是指数据可以自由变化的数量。在统计学中,自由度是一种测量样本总体(或总体的特征)的可变性的方法。自由度通常用n−1n-1n−1来表示,其中nnn是样本容量。自由度告诉我们哪些值可以变化,哪些值被限制了。自由度是统计学中重要的概念,它可以帮助我们计算各种统计量,比如 t 值、F 值、卡方值等。在不同的应用场景下,自由度的计算方法也不同,需要根据具体情况进行计算。原创 2023-05-18 20:27:13 · 1473 阅读 · 0 评论 -
调节变量学习笔记
本文介绍了调节变量分析的基本概念、常见方法和应用场景。通过利用调节变量分析,我们可以更好地理解变量之间的相互作用关系,从而更好地设计和优化相关的实验、治疗、教育和营销策略,为实际问题的解决提供帮助。原创 2023-05-18 20:27:02 · 1449 阅读 · 0 评论 -
协变量学习笔记
本文介绍了协变量学习的基本概念、常见算法模型以及应用场景。在实际应用中,我们需要根据具体的问题选择合适的算法模型,并考虑如何提高协变量学习的预测准确率。原创 2023-05-18 20:25:43 · 519 阅读 · 0 评论 -
多元回归:逐步回归
逐步回归是一种基于统计学的建模方法,通过反复添加和删除自变量来选择最佳的模型。它通常分为前向逐步回归和后向逐步回归两种。逐步回归具有自动化选择、灵活性和节约时间和成本等优点,但也存在模型过拟合和过于依赖数据等缺点。在应用逐步回归时,需要根据具体问题进行选择,并结合实际情况进行判断。原创 2023-05-18 20:26:38 · 3428 阅读 · 1 评论 -
统计:容忍度分析
容忍度是指当两个或多个变量之间存在差异时,其中一个变量的值可以变化多少,而不会影响两个变量之间的相似性或差异性。简单来说,容忍度可以衡量两个或多个变量之间的容错能力。容忍度分析是一种常用的统计分析方法,它可以衡量变量之间的容错能力,用于变量选择和数据探索等方面。在实际应用中,需要根据具体情况灵活运用容忍度分析,并注意容忍度的局限性。原创 2023-05-18 20:25:27 · 1665 阅读 · 0 评论 -
膨胀系数学习笔记
膨胀系数是用于判断多元线性回归模型中自变量共线性程度的指标。通常情况下,我们用方差膨胀因子(VIF)来表示膨胀系数。VIF是一种广义的方差膨胀因子,表示一个自变量的方差在所有自变量的方差和中所占比例。如果某个自变量的VIF值过大,则说明该自变量与其他自变量高度相关,可能存在共线性问题。膨胀系数是多元线性回归中解决自变量共线性问题的工具之一,通常用方差膨胀因子(VIF)来表示。通过计算每个自变量的膨胀系数,我们可以判断它们之间是否存在共线性,并考虑采取适当的措施来解决共线性问题。原创 2023-05-18 20:25:17 · 395 阅读 · 0 评论 -
回归方程的拟合度
回归方程的拟合度是评估回归分析结果的重要指标。拟合优度、标准误差和F统计量是用于评估回归方程拟合度的常用指标。在实际应用中,可以通过变量选择、数据转换和模型调整等方法来优化回归分析结果。原创 2023-05-18 20:26:07 · 3944 阅读 · 0 评论 -
统计:置信区间学习笔记
置信区间是统计学中比较重要的概念,它可以用来评估样本数据的可靠性以及相应的误差范围。在不同的应用场景下,我们可以根据需要调整置信度和计算方法。本篇文章对置信区间的基本概念、应用场景和计算方法进行了介绍,希望能够对您的学习和研究有所帮助。原创 2023-05-18 20:24:34 · 510 阅读 · 0 评论 -
CFA学习笔记
CFA(Confirmatory Factor Analysis)是一种基于SEM(结构方程模型)的统计方法,用于测试和验证已有理论和研究假设。通过CFA,可以对原理性因素分析进行精细化检测,从而更准确地评估和量化研究变量之间的关系。原创 2023-05-17 14:44:42 · 691 阅读 · 0 评论 -
AMOS学习笔记
AMOS(Analysis of Moment Structures)是一种统计分析方法,用于探究测量模型和结构方程模型的原理。AMOS通常用于心理学、社会学、教育学等领域中,来测试和验证理论模型,并通过数据进行模型拟合和检验。原创 2023-05-17 14:44:05 · 1006 阅读 · 0 评论 -
统计:估计区间学习笔记
本文介绍了统计学中估计区间的基本概念、计算方法以及应用场景。估计区间作为一种重要的统计学工具,可以用于评估总体参数的精度和可靠性,为数据分析和决策提供了有力的支持和参考依据。原创 2023-05-15 21:42:31 · 611 阅读 · 0 评论 -
偏回归平方学习笔记
偏回归平方是一种实用的自变量分析方法,可以帮助我们更好地理解各自变量之间的相互影响关系,并为模型优化提供科学依据。在实际应用中,需要注意数据质量、共线性等问题,并根据具体研究问题进行合理解释。原创 2023-05-15 21:38:34 · 779 阅读 · 0 评论 -
贝叶斯检验学习笔记
贝叶斯统计学是一种在面对不确定性时,通过逐步更新先验信念以得到后验分布的方法。贝叶斯检验是基于此思想发展起来的一种做出统计决策的方法。相比于传统的频率学派,贝叶斯学派更注重个体数据的变化,更能够满足多样性的需求,因此在近年来得到了越来越广泛的应用。原创 2023-05-15 21:41:55 · 1011 阅读 · 0 评论 -
独立增量过程:维纳过程、泊松过程
独立增量过程是一类随机过程,在数学和统计学中有着广泛的应用。其最基本的特点是具有独立增量,也就是说两个不同时间点之间的值之差是独立于之前的所有值的。这个特点使得独立增量过程具有很好的可测性和可预测性,因此在实际应用中得到了广泛的应用。常见的独立增量过程包括维纳过程和泊松过程。原创 2023-05-14 09:08:19 · 2648 阅读 · 0 评论