数据分析知识问答
定期分享SQL、概率论、统计学、机器学习、python相关数据分析知识,欢迎关注!
阿桨
人生何处不青山
展开
-
数据库-分布式数据库与集中式数据库
而Oracle集群(如RAC)则更像是一个大包子。当你增加主机(馅)时,实际上是增加了这个大包子内部的填充物,使其更加饱满和丰富。然而,整个包子(集群)仍然是一个整体,其处理和存储能力是基于整个系统的,而不是基于单个部分的。当你需要增加处理能力或存储容量时,你可以简单地增加更多的小笼包(节点),这样整个系统的能力就会得到提升。分布式数据库通过增加节点来实现真正的分布式处理和存储,而Oracle集群则是通过增加主机来提高整个系统的处理和存储能力,但仍然保持其作为一个整体的特性。原创 2024-05-14 09:53:25 · 245 阅读 · 0 评论 -
机器学习-如何为模型选择评估指标?
例如,在医疗诊断中,误报(假阳性)可能是一个严重的问题,因此精确率可能是一个重要的指标。而在欺诈检测中,漏报(假阴性)可能更为严重,因此召回率可能更重要。有时,单一指标可能无法全面评估模型的性能。例如,在分类问题中,可以同时考虑精确率、召回率和F1分数等指标。当数据集存在类别不平衡的情况时,准确率可能不是一个好的评估指标,因为它可能会被多数类所主导。在这种情况下,使用精确率、召回率和F1分数可能更为合适。为机器学习模型选择评估指标是一个关键步骤,因为它直接关联到如何衡量模型的性能。原创 2024-05-10 22:53:27 · 183 阅读 · 0 评论 -
机器学习-什么是 k-means?
k-means是一种无监督的分类学习算法。它的基本原理是以距离作为相似度的评价指标,用样本点到类别中心的误差平方和作为聚类好坏的评价指标,通过迭代的方法使总体分类的误差评分和函数达到最小的聚类方法。原创 2024-04-29 19:18:23 · 1105 阅读 · 0 评论 -
机器学习-什么是 PCA?
一般来说,你可以根据数据的特征、模型的复杂度、以及计算资源的限制来决定。另外,你还可以设定n_components=‘mle’,这样PCA会自动选取特征个数,使得满足所要求的方差百分比。它工作的原理是通过投影的方式,将高维数据映射到低维的空间中,并尽量保证投影后的数据保留了原始数据的主要特性。通过降低数据的维度,PCA不仅可以帮助我们简化模型,还能提高算法的运行效率,减少过拟合的风险。而LDA是一种监督式学习方法,既可以用于降维,也可以进行预测应用,既可以组合其他模型一起使用,也可以独立使用。原创 2024-04-29 19:13:44 · 680 阅读 · 0 评论 -
机器学习-异方差性是什么,如何克服异方差性?
异方差性(Heteroscedasticity)是指在回归模型中,随着自变量的变化,误差项的方差不是恒定的情况。简单来说,异方差性表示了随着自变量取值的不同,误差项的方差存在变化。原创 2024-04-23 15:29:04 · 606 阅读 · 0 评论 -
机器学习-多重共线性是什么 ? 如何解决多重共线性问题 ?
多重共线性是指在回归模型中,自变量之间存在高度线性相关或近似线性相关的情况。原创 2024-04-23 15:26:30 · 459 阅读 · 0 评论 -
机器学习-线性回归普通最小二乘法运用的经典基本假设有哪些?
在实践中,对于这些基本假设的满足程度需要进行检验和验证。例如,可以通过残差分析来检验误差项的同方差性和正态性,利用相关系数或方差膨胀因子来检验自变量之间的共线性,以及使用F检验或t检验来检验回归系数的显著性。如果基本假设不满足,可能需要采取相应的方法来处理,例如应用异方差性修正方法或采用非线性回归模型。在实际应用中,研究者需要谨慎地评估和解释OLS估计结果,并考虑模型的适用性和假设的合理性。在线性回归中,普通最小二乘法(Ordinary Least Squares,OLS)是一种常用的参数估计方法。原创 2024-04-23 15:23:27 · 292 阅读 · 0 评论 -
统计学-一类错误和二类错误哪个个严重?
在其他情况下,二类错误可能更为严重,因为它可能导致错失重要的发现和进展,使我们无法获得有价值的信息。在某些情况下,二类错误可能带来严重的后果,例如在医学领域中,未能发现一种有效的治疗方法可能导致患者无法获得适当的治疗。在某些情况下,一类错误可能带来严重的后果,例如在医学领域中,错误地认为一种治疗方法有效可能导致患者接受不必要的治疗或药物副作用。因此,研究者需要根据具体情况和研究目的,综合考虑一类错误和二类错误的风险,并选择适当的显著性水平和样本大小,以在可接受的错误范围内最大限度地减少两种错误的概率。原创 2024-04-22 12:34:26 · 436 阅读 · 0 评论 -
统计学-什么是一类错误和二类错误?
一类错误和二类错误是一对相互关联的错误。在假设检验中,我们希望通过控制显著性水平(α)来减少一类错误的可能性,同时降低二类错误的概率。一类错误(Type I error):如果我们设置了显著性水平(α)为0.05,这意味着我们愿意接受5%的风险来犯一类错误。假设实际上该药物对血压没有影响(H0为真),但由于样本误差或其他因素,我们错误地拒绝了原假设,即错误地认为该药物可以降低血压。二类错误(Type II error):与一类错误相反,假设实际上备择假设为真(H1为真),即该药物可以降低血压。原创 2024-04-22 12:31:44 · 522 阅读 · 0 评论 -
统计学-什么是 p 值?
需要注意的是,p值并不能告诉我们假设的真实性或效应的大小。p值告诉我们,如果原假设为真,观察到的数据或更极端数据出现的概率是多少。p值的范围在0到1之间。一个小的p值(通常小于0.05)表示在原假设下,观察到的数据或更极端数据出现的概率非常低。p值(p-value)是统计学中的一个概率值,用于评估观察到的数据与一个假设之间的一致性。更具体地说,它表示在假设为真的情况下,观察到的统计量或更极端情况出现的概率。相反,一个大的p值(通常大于0.05)表示在原假设下,观察到的数据或更极端数据出现的概率相对较高。原创 2024-04-22 12:27:00 · 353 阅读 · 0 评论 -
统计学-F检验的用途有哪些?
F检验是一种常用的统计检验方法,主要用于以下几个方面:原创 2024-04-22 12:24:27 · 422 阅读 · 0 评论 -
统计学-什么是单因素方差分析?
单因素方差分析(One-Way Analysis of Variance,简称ANOVA)是一种统计方法,用于比较三个或更多个组(或处理)之间的平均数是否存在显著差异。在单因素方差分析中,研究者将观察值按照一个特定的因素进行分类,并比较不同类别之间的平均数是否存在显著差异。这个因素可以是任何可以将观察值分成两个或更多组的变量,例如不同的治疗方法不同的药物剂量等。这个方法的基本假设是,各个小组的成绩都是从同一个大家庭(也就是说,同一个总体)出来的,只是由于一些小问题导致了一些差异。原创 2024-04-22 12:20:41 · 213 阅读 · 0 评论 -
统计学-为什么t检验需要进行方差齐次性检验?
如果方差不齐,那么使用常规的t检验(即假设方差相等的t检验)可能会导致第一类错误(即错误地拒绝零假设)的概率增加,从而降低统计推断的有效性。如果方差齐次性检验的结果显示两个样本的方差确实不相等,那么应该使用不假设方差相等的t检验(如Welch的t检验)或其他非参数检验方法,以确保统计推断的准确性和可靠性。t检验是建立在两个样本分别来自具有相同方差的正态分布总体的假设之上的。如果两个总体的方差不相等(即方差不齐),那么t检验的结果可能不准确,甚至可能导致错误的结论。原创 2024-04-19 16:12:57 · 400 阅读 · 0 评论 -
统计学-什么是 T 检验和 Z 检验?
t检验,也称为student t检验,主要用于样本含量较小(例如n < 30),总体标准差未知,且数据服从正态分布的情境。它通过计算样本均值之间的差异以及这种差异相对于样本误差的大小来判断差异是否显著。z检验利用数据的z分数符合正态分布的性质来推断差异发生的概率。它的检验统计量是通过计算样本均值与总体均值之间的差异,并除以标准误差得到的。然后,利用给定的显著性水平和z值查找标准正态分布表,从而确定差异是否显著。t检验和z检验都是常用的统计推断方法,用于检验两个样本均值之间是否存在显著差异。原创 2024-04-16 11:35:58 · 395 阅读 · 0 评论 -
统计学-假设检验和置信区间的关系是什么?
假设检验是一种统计推断方法,其基本原理是“小概率事件”原理,通过反证法来判断样本与样本、样本与总体之间的差异是由抽样误差引起还是本质差别造成的。其次,置信区间可以提供假设检验无法提供的信息,比如根据置信区间的上下限数值大小,我们可以判断差异是否具有实际意义。此外,假设检验可以提供确切的P值,而置信区间只能在预先确定的置信度水平上进行推断,没有精确的概率值。首先,置信区间具有假设检验的主要功能,即在特定的显著性水平(α水准)上,可以判断样本数据之间的差异是否具有统计学意义。原创 2024-04-16 11:34:03 · 304 阅读 · 0 评论 -
统计学-中心极限定理和置信区间的关系是什么?
具体来说,在研究和评估中,置信度是衡量数据或结果的可靠性和可信度的一种指标,它反映了被评估对象的真实性或有效性。例如,在机器学习和人工智能中,置信度是指算法对某个预测结果的置信程度或可信程度;在统计学和概率论中,置信度是对某个样本统计量所构造的总体参数估计区间的可信程度或把握程度的度量。置信度通常表示为一定范围内的百分数,比如95%的置信度意味着我们有95%的信心认为某个结果是准确的。总的来说,置信度是统计和决策制定中的一个关键概念,它帮助我们在不确定性中做出更明智的判断和决策。原创 2024-04-16 11:30:41 · 416 阅读 · 0 评论 -
统计学-什么是置信度 ?
具体来说,在研究和评估中,置信度是衡量数据或结果的可靠性和可信度的一种指标,它反映了被评估对象的真实性或有效性。例如,在机器学习和人工智能中,置信度是指算法对某个预测结果的置信程度或可信程度;在统计学和概率论中,置信度是对某个样本统计量所构造的总体参数估计区间的可信程度或把握程度的度量。置信度通常表示为一定范围内的百分数,比如95%的置信度意味着我们有95%的信心认为某个结果是准确的。总的来说,置信度是统计和决策制定中的一个关键概念,它帮助我们在不确定性中做出更明智的判断和决策。原创 2024-04-16 11:27:58 · 599 阅读 · 0 评论 -
统计学-什么是置信区间?
例如,如果我们想知道某个地区成年人的平均身高,我们会通过随机抽取一部分成年人来测量他们的身高,然后根据这些样本数据来估计整个地区的平均身高。置信区间(Confidence Interval,CI)是一种统计概念,它表示的是由样本统计量所构造的总体参数的估计区间。在统计推断中,由于样本的随机性,我们不可能通过样本统计量来精确估计总体参数,因此需要通过置信区间来表示这种估计的不确定性。总之,置信区间是统计推断中非常重要的概念,它可以帮助我们了解样本统计量对总体参数的估计精度和不确定性。原创 2024-04-16 11:26:31 · 474 阅读 · 0 评论 -
统计学-什么是中心极限定理?
具体来说,中心极限定理的基本思想是:当一组数据的样本数足够大时,它们的分布会接近正态分布,即钟形曲线。这意味着,无论单个随机变量的分布如何,只要样本量足够大,这些随机变量的和或平均值就会趋近于正态分布。中心极限定理有三个主要形式,包括独立同分布的中心极限定理(林德伯格-列维定理)、棣莫佛-拉普拉斯定理和李雅普诺夫定理。总的来说,中心极限定理在统计学中起着至关重要的作用,它提供了一种理解复杂随机现象的数学工具,也为许多统计方法提供了理论基础。它是概率论中最重要的一类定理,有广泛的实际应用背景。原创 2024-04-16 11:24:08 · 295 阅读 · 0 评论 -
SQL-Oracle 获取最大值,第二大,第三大,第 N 大值
因为rownum并不是当作实体数据存放在每一张表中,而是在每一次select查询的时候,根据基表的默认insert顺序由oracle动态分配的,有1才有2,如果rownum没有1,那么2也就没有了意义,所以这个查询就不会有任何结果出来。此时可以先取出前N大的值,到序排序,再获取第一行数据,及第N大的值。通过row_number实现,是正常显示的。发现取出的记录和第二大的值记录一样。原创 2024-04-15 15:18:02 · 536 阅读 · 0 评论 -
SQL-如何实现文本中内容动态截取
当我们需要截取的内容在文本中的位置不固定,但是有一定规律时,可以通过instr()函数找到目标文本的起始位置后,通过substr()函数动态截取。需求:截取从报错信息开始到数据库错误结束部分的信息,如报错信息customer数据库错误。原创 2024-04-08 17:47:54 · 259 阅读 · 0 评论 -
SQL-如何将时间戳转换为‘yyyy-MM-dd‘格式?
时间戳的位数主要有10位和13位两种。代表从1970年1月1日开始所经过的秒数。代表从1970年1月1日开始所经过的毫秒数。原创 2024-04-08 17:39:30 · 189 阅读 · 1 评论 -
SQL-count(*)、count(字段) 、count(distinct字段) 的区别是什么?
count(字段)只包括列名那一列,在统计结果的时候,会忽略列值为空(这里的空不是只空字符串或者0,而是表示null)的计数, 即某个字段值为NULL时,不统计。列名为主键,count(指定字段)会比count(1)快列名不为主键,count(1)会比count(指定字段)快。count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候, 不会忽略列值为NULL。count(*)包括了所有的列,相当于行数,在统计结果的时候, 不会忽略列值为NULL。原创 2024-04-03 17:28:11 · 250 阅读 · 0 评论 -
SQL-如何实现去重操作?
3、使用开窗函数去重,如用rank、row_number排序后取第一行。1、使用DISTINCT关键字去重。2、使用GROUP BY子句去重。原创 2024-04-03 17:25:30 · 108 阅读 · 0 评论 -
SQL-union、union all区别有哪些?
1、union: 对两个结果集进行并集操作, 不包括重复行,相当于distinct, 同时进行默认规则的排序;2、union all: 对两个结果集进行并集操作, 包括重复行, 即所有的结果全部显示, 不管是不是重复;3、在没有去重的前提下,使用union all的执行效率要比union高;原创 2024-04-03 16:22:42 · 107 阅读 · 0 评论 -
SQL-having和where的区别有哪些?
2、从语法看,where查询条件中不可以使用聚合函数和字段别名(也是因为sql执行顺序),而having查询条件中可以使用聚合函数和字段别名;1、从执行顺序看,where在group by之前执行,用于过滤数据行;having在group by之后执行,用于过滤分组;原创 2024-04-03 16:21:07 · 94 阅读 · 0 评论