自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 收藏
  • 关注

原创 【一 简明数据分析进阶路径介绍(文章导航)】

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总、理解和消化,以最大化地开发数据的功能,从而发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

2024-02-22 10:32:08 490 1

原创 机器学习-什么是 k-means?

k-means是一种无监督的分类学习算法。它的基本原理是以距离作为相似度的评价指标,用样本点到类别中心的误差平方和作为聚类好坏的评价指标,通过迭代的方法使总体分类的误差评分和函数达到最小的聚类方法。

2024-04-29 19:18:23 517

原创 机器学习-什么是 PCA?

一般来说,你可以根据数据的特征、模型的复杂度、以及计算资源的限制来决定。另外,你还可以设定n_components=‘mle’,这样PCA会自动选取特征个数,使得满足所要求的方差百分比。它工作的原理是通过投影的方式,将高维数据映射到低维的空间中,并尽量保证投影后的数据保留了原始数据的主要特性。通过降低数据的维度,PCA不仅可以帮助我们简化模型,还能提高算法的运行效率,减少过拟合的风险。而LDA是一种监督式学习方法,既可以用于降维,也可以进行预测应用,既可以组合其他模型一起使用,也可以独立使用。

2024-04-29 19:13:44 219

原创 机器学习-异方差性是什么,如何克服异方差性?

异方差性(Heteroscedasticity)是指在回归模型中,随着自变量的变化,误差项的方差不是恒定的情况。简单来说,异方差性表示了随着自变量取值的不同,误差项的方差存在变化。

2024-04-23 15:29:04 512

原创 机器学习-多重共线性是什么 ? 如何解决多重共线性问题 ?

多重共线性是指在回归模型中,自变量之间存在高度线性相关或近似线性相关的情况。

2024-04-23 15:26:30 399

原创 机器学习-线性回归普通最小二乘法运用的经典基本假设有哪些?

在实践中,对于这些基本假设的满足程度需要进行检验和验证。例如,可以通过残差分析来检验误差项的同方差性和正态性,利用相关系数或方差膨胀因子来检验自变量之间的共线性,以及使用F检验或t检验来检验回归系数的显著性。如果基本假设不满足,可能需要采取相应的方法来处理,例如应用异方差性修正方法或采用非线性回归模型。在实际应用中,研究者需要谨慎地评估和解释OLS估计结果,并考虑模型的适用性和假设的合理性。在线性回归中,普通最小二乘法(Ordinary Least Squares,OLS)是一种常用的参数估计方法。

2024-04-23 15:23:27 242

原创 CentOS-7部署mysql、clickhouse并通过普罗米修斯、grafna监控告警

访问http://192.168.15.129:9090/targets,看到clickhouse状态是up。访问http://192.168.15.129:9090/targets,看到up说明启动成功。访问http://192.168.15.134:9104/metrics成功。所用镜像:CentOS-7-x86_64-DVD-2009.iso。

2024-04-23 15:18:15 1292 1

原创 CentOS-7安装grafana

因为在测试,直接iptables -F。

2024-04-23 15:01:09 637

原创 CentOS-7安装clickhouse并允许其他主机登录

修改把 :: 的注释打开,这样的话才能让ClickHouse被除本机以外的服务器访问。访问 https://packages.clickhouse.com/rpm/stable/ 下载文件。

2024-04-23 14:52:06 596 1

原创 CentOS-7安装Mysql并允许其他主机登录

【代码】CentOS-7安装Mysql并允许其他主机登录。

2024-04-23 14:40:27 162

原创 统计学-一类错误和二类错误哪个个严重?

在其他情况下,二类错误可能更为严重,因为它可能导致错失重要的发现和进展,使我们无法获得有价值的信息。在某些情况下,二类错误可能带来严重的后果,例如在医学领域中,未能发现一种有效的治疗方法可能导致患者无法获得适当的治疗。在某些情况下,一类错误可能带来严重的后果,例如在医学领域中,错误地认为一种治疗方法有效可能导致患者接受不必要的治疗或药物副作用。因此,研究者需要根据具体情况和研究目的,综合考虑一类错误和二类错误的风险,并选择适当的显著性水平和样本大小,以在可接受的错误范围内最大限度地减少两种错误的概率。

2024-04-22 12:34:26 395

原创 统计学-什么是一类错误和二类错误?

一类错误和二类错误是一对相互关联的错误。在假设检验中,我们希望通过控制显著性水平(α)来减少一类错误的可能性,同时降低二类错误的概率。一类错误(Type I error):如果我们设置了显著性水平(α)为0.05,这意味着我们愿意接受5%的风险来犯一类错误。假设实际上该药物对血压没有影响(H0为真),但由于样本误差或其他因素,我们错误地拒绝了原假设,即错误地认为该药物可以降低血压。二类错误(Type II error):与一类错误相反,假设实际上备择假设为真(H1为真),即该药物可以降低血压。

2024-04-22 12:31:44 418

原创 统计学-什么是 p 值?

需要注意的是,p值并不能告诉我们假设的真实性或效应的大小。p值告诉我们,如果原假设为真,观察到的数据或更极端数据出现的概率是多少。p值的范围在0到1之间。一个小的p值(通常小于0.05)表示在原假设下,观察到的数据或更极端数据出现的概率非常低。p值(p-value)是统计学中的一个概率值,用于评估观察到的数据与一个假设之间的一致性。更具体地说,它表示在假设为真的情况下,观察到的统计量或更极端情况出现的概率。相反,一个大的p值(通常大于0.05)表示在原假设下,观察到的数据或更极端数据出现的概率相对较高。

2024-04-22 12:27:00 268

原创 统计学-F检验的用途有哪些?

F检验是一种常用的统计检验方法,主要用于以下几个方面:

2024-04-22 12:24:27 291

原创 统计学-什么是单因素方差分析?

单因素方差分析(One-Way Analysis of Variance,简称ANOVA)是一种统计方法,用于比较三个或更多个组(或处理)之间的平均数是否存在显著差异。在单因素方差分析中,研究者将观察值按照一个特定的因素进行分类,并比较不同类别之间的平均数是否存在显著差异。这个因素可以是任何可以将观察值分成两个或更多组的变量,例如不同的治疗方法不同的药物剂量等。这个方法的基本假设是,各个小组的成绩都是从同一个大家庭(也就是说,同一个总体)出来的,只是由于一些小问题导致了一些差异。

2024-04-22 12:20:41 187

原创 统计学-为什么t检验需要进行方差齐次性检验?

如果方差不齐,那么使用常规的t检验(即假设方差相等的t检验)可能会导致第一类错误(即错误地拒绝零假设)的概率增加,从而降低统计推断的有效性。如果方差齐次性检验的结果显示两个样本的方差确实不相等,那么应该使用不假设方差相等的t检验(如Welch的t检验)或其他非参数检验方法,以确保统计推断的准确性和可靠性。t检验是建立在两个样本分别来自具有相同方差的正态分布总体的假设之上的。如果两个总体的方差不相等(即方差不齐),那么t检验的结果可能不准确,甚至可能导致错误的结论。

2024-04-19 16:12:57 364

原创 【八 (2)指标体系建设-故障指标体系建设步骤】

ODS的数据特点包括不断更新和易丢失,不存储历史数据,只反映当前实时性的信息,并且存储细节性数据,很少有汇总数据。ODS的主要功能包括作为业务系统和数据仓库之间的隔离地带、降低业务系统的压力、满足从微观角度查询细节数据的要求、实时性的数据整合功能、检查数据质量的功能,以及为企业提供统一的数据视图和数据共享的功能。同时,由于DWD层存储的是最原始的数据,因此数据质量较高,能够保证数据的完整性和准确性。在设计过程中,应遵循最小化原则,合理划分数据域和维度,减少不必要的字段和关系,提高数据的可读性和可维护性。

2024-04-19 16:08:02 577

原创 统计学-什么是 T 检验和 Z 检验?

t检验,也称为student t检验,主要用于样本含量较小(例如n < 30),总体标准差未知,且数据服从正态分布的情境。它通过计算样本均值之间的差异以及这种差异相对于样本误差的大小来判断差异是否显著。z检验利用数据的z分数符合正态分布的性质来推断差异发生的概率。它的检验统计量是通过计算样本均值与总体均值之间的差异,并除以标准误差得到的。然后,利用给定的显著性水平和z值查找标准正态分布表,从而确定差异是否显著。t检验和z检验都是常用的统计推断方法,用于检验两个样本均值之间是否存在显著差异。

2024-04-16 11:35:58 362

原创 统计学-假设检验和置信区间的关系是什么?

假设检验是一种统计推断方法,其基本原理是“小概率事件”原理,通过反证法来判断样本与样本、样本与总体之间的差异是由抽样误差引起还是本质差别造成的。其次,置信区间可以提供假设检验无法提供的信息,比如根据置信区间的上下限数值大小,我们可以判断差异是否具有实际意义。此外,假设检验可以提供确切的P值,而置信区间只能在预先确定的置信度水平上进行推断,没有精确的概率值。首先,置信区间具有假设检验的主要功能,即在特定的显著性水平(α水准)上,可以判断样本数据之间的差异是否具有统计学意义。

2024-04-16 11:34:03 283

原创 统计学-中心极限定理和置信区间的关系是什么?

具体来说,在研究和评估中,置信度是衡量数据或结果的可靠性和可信度的一种指标,它反映了被评估对象的真实性或有效性。例如,在机器学习和人工智能中,置信度是指算法对某个预测结果的置信程度或可信程度;在统计学和概率论中,置信度是对某个样本统计量所构造的总体参数估计区间的可信程度或把握程度的度量。置信度通常表示为一定范围内的百分数,比如95%的置信度意味着我们有95%的信心认为某个结果是准确的。总的来说,置信度是统计和决策制定中的一个关键概念,它帮助我们在不确定性中做出更明智的判断和决策。

2024-04-16 11:30:41 412

原创 统计学-什么是置信度 ?

具体来说,在研究和评估中,置信度是衡量数据或结果的可靠性和可信度的一种指标,它反映了被评估对象的真实性或有效性。例如,在机器学习和人工智能中,置信度是指算法对某个预测结果的置信程度或可信程度;在统计学和概率论中,置信度是对某个样本统计量所构造的总体参数估计区间的可信程度或把握程度的度量。置信度通常表示为一定范围内的百分数,比如95%的置信度意味着我们有95%的信心认为某个结果是准确的。总的来说,置信度是统计和决策制定中的一个关键概念,它帮助我们在不确定性中做出更明智的判断和决策。

2024-04-16 11:27:58 436

原创 统计学-什么是置信区间?

例如,如果我们想知道某个地区成年人的平均身高,我们会通过随机抽取一部分成年人来测量他们的身高,然后根据这些样本数据来估计整个地区的平均身高。置信区间(Confidence Interval,CI)是一种统计概念,它表示的是由样本统计量所构造的总体参数的估计区间。在统计推断中,由于样本的随机性,我们不可能通过样本统计量来精确估计总体参数,因此需要通过置信区间来表示这种估计的不确定性。总之,置信区间是统计推断中非常重要的概念,它可以帮助我们了解样本统计量对总体参数的估计精度和不确定性。

2024-04-16 11:26:31 419

原创 统计学-什么是中心极限定理?

具体来说,中心极限定理的基本思想是:当一组数据的样本数足够大时,它们的分布会接近正态分布,即钟形曲线。这意味着,无论单个随机变量的分布如何,只要样本量足够大,这些随机变量的和或平均值就会趋近于正态分布。中心极限定理有三个主要形式,包括独立同分布的中心极限定理(林德伯格-列维定理)、棣莫佛-拉普拉斯定理和李雅普诺夫定理。总的来说,中心极限定理在统计学中起着至关重要的作用,它提供了一种理解复杂随机现象的数学工具,也为许多统计方法提供了理论基础。它是概率论中最重要的一类定理,有广泛的实际应用背景。

2024-04-16 11:24:08 270

原创 【八 (1)指标体系建设-构建高效的故障管理指标体系】

ITIL中定义故障为IT服务意外中断或IT服务质量降低。且尚未对服务产生影响的配置项失效也是一种故障。指标是用于衡量、量化和评估特定目标或业务绩效的度量标准或参数。以定量的方式来衡量和跟踪关键数据,以便评估绩效、进展和效果。确定影响故障管理绩效的关键要素,如故障响应时间、恢复时间、故障率等,并为每个要素定义相应的指标。故障管理指标体系的构建是一个关键的过程,旨在通过定义、收集和分析指标数据,提供对故障管理绩效的量化评估和监控。

2024-04-15 22:00:19 1857

原创 SQL-Oracle 获取最大值,第二大,第三大,第 N 大值

因为rownum并不是当作实体数据存放在每一张表中,而是在每一次select查询的时候,根据基表的默认insert顺序由oracle动态分配的,有1才有2,如果rownum没有1,那么2也就没有了意义,所以这个查询就不会有任何结果出来。此时可以先取出前N大的值,到序排序,再获取第一行数据,及第N大的值。通过row_number实现,是正常显示的。发现取出的记录和第二大的值记录一样。

2024-04-15 15:18:02 445

原创 【七 (5)FineBI FCP模拟试卷-母婴行业新零售连带消费分析】

本次案例需要分析线上渠道引流到店二次消费,对下游母婴连锁店的业绩贡献有多大,并从人-货-场三个角度分析找到提高贡献度的策略;在母婴行业中,线下渠道的销售表现远优于线上,而线上渠道往往作为线下渠道的引流点,有利于促成用户到店消费,帮助提升门店业绩;人:从小程序来源场景分析活跃会员数占比和页面访问量占比,分析不同支付核销天数差的连带消费会员数和连带单客产值。货:区分线上会员和连带消费会员群体-2级品类销售金额 ABC分析、销售额TOP20的品牌分析。关键指标统计展示(见数据说明)

2024-04-14 18:30:17 391

原创 【七 (4)FineBI FCP模拟试卷-电站数据分析】

4.地图的数据标签需要包含省份、电站名称、电站状态、发电量、电站总电量相关信息;5.电站负责人、电站状态的装机容量数据需要以表格的形式统计,并且悬乎在地图区域;7.发电效率、年售电完成比、售电回款比、管理费用比、运维费用比需要添加闪烁效果。1.年度总发电量和年售电完成率不和其他组件联动,其他组件之间可以自由联动;3.最近装机容量需要自动统计当前电站事实表发电数据中的最近日期的装机容量;2.最近日期需要自动显示当前电站事实表发电数据中的最近日期;近12个月电站月发电完成比。近12个月电站月售电完成比。

2024-04-14 08:00:00 652

原创 【七 (3)FineBI FCP模拟试卷-商品捆绑销售策略分析】

当 A商品名称 和 B商品名称 相同时,它们是同一个产品,计算支持度、置信度、提升度没有意义。使用点图进行商品关联分析,展示不同商品组合相对于平均支持度和平均置信度的位置,并且展示提升度的大小;使用表格进行关联商品、支持度、置信度、提升度进行相关数据的最终呈现。使用矩形块图,进行支持度、置信度、提升度分析;MeaNames:商品名称。订单ID:交易订单ID。

2024-04-13 11:13:12 672

原创 【七 (2)FineBI FCP模拟试卷-平台新增用户留存分析】

通过对“平台新增用户留存分析.xlsx”中的用户平台登录和激活信息数据进行分析来计算出平台每日的 “新增用户数” 、“次日留存人数”、“七日留存人数”、“十五日留存人数”,“一周内留存率”、“二周内留存率”、“三周内留存率” 指标值并通过表格及图形实现相应效果。N周内留存率:指新增用户日之后,"注册(激活)-登录时间差"为 1~7N(含) 天的登录用户数 / 新增用户。N日留存人数:指新增用户日(T)之后的第N日,依然登录的用户数。留存率 = 新增用户中登录用户数/新增用户数 * 100%

2024-04-13 10:02:51 360

原创 【七 (1)FineBI FCP模拟试卷-股票收盘价分析】

YEAR(Date) :返回Date年份MONTH(Date)+1 :返回Date的后一个月DATE(YEAR(Date),MONTH(Date)+1,1) :返回Date的后一个月第一天DATE(YEAR(Date),MONTH(Date)+1,1)-1 :返回Date月份的最后一天日期:当Date是月份的最后一天日期时返回Adj Close。

2024-04-13 09:44:46 364

原创 【六 (6)机器学习-分类任务-kaggle泰坦尼克号宇宙飞船实战使用BayesianOptimization搜索参数并用SequentialFeatureSelector进行特征选择】

使用BayesianOptimization搜索参数并用SequentialFeatureSelector进行特征选择

2024-04-11 09:55:32 308

原创 【六 (5)机器学习-分类任务-kaggle泰坦尼克号宇宙飞船实战】

分类任务是机器学习中的一个基本任务,其核心目的是根据输入数据的特征,将数据分配到预先定义的类别或标签中。在分类任务中,首先会收到一个包含多个属性的数据集,每个数据点或记录都由一组属性(特征)和一个类标号(目标属性)组成,类标号是用于指示数据点所属类别的一组离散值。分类任务的目标是学习一个目标函数(也称为分类模型),该函数能够将数据集中的每个属性集映射到一个特定的类标号。这个分类模型可以用于描述性建模,解释不同类中的对象,也可以用于预测性建模,预测新数据的类标号。

2024-04-11 09:54:24 1770

原创 SQL-如何实现文本中内容动态截取

当我们需要截取的内容在文本中的位置不固定,但是有一定规律时,可以通过instr()函数找到目标文本的起始位置后,通过substr()函数动态截取。需求:截取从报错信息开始到数据库错误结束部分的信息,如报错信息customer数据库错误。

2024-04-08 17:47:54 257

原创 SQL-如何将时间戳转换为‘yyyy-MM-dd‘格式?

时间戳的位数主要有10位和13位两种。代表从1970年1月1日开始所经过的秒数。代表从1970年1月1日开始所经过的毫秒数。

2024-04-08 17:39:30 144 1

原创 【六 (4)机器学习-回归任务-鲍鱼年龄预测xgboost、lightgbm实战】

XGBoost(Extreme Gradient Boosting)是一种基于梯度提升决策树的优化分布式梯度提升库。它是大规模并行boosting tree(提升树)的工具,它是用于解决许多数据科学问题(如分类,回归,排名等)的有效,便携和灵活的机器学习算法。XGBoost通过并行化实现了更快的训练速度,同时也通过优化算法减少了过拟合。它内置了正则化项,能够控制模型的复杂度,从而防止过拟合。此外,XGBoost还支持列抽样,这不仅能降低过拟合,还能减少计算。

2024-04-06 11:01:26 1096

原创 【六 (2)机器学习-EDA探索性数据分析模板】

EDA(Exploratory Data Analysis)即探索性数据分析,EDA通过可视化、统计和图形化的方法,对数据集进行全面的、非形式化的初步分析,帮助分析人员了解数据的基本特征,发现数据中的规律和模式。这有助于获取对数据的直观感受和深刻理解,为后续的数据处理和建模提供基础。

2024-04-06 10:47:02 466

原创 SQL-count(*)、count(字段) 、count(distinct字段) 的区别是什么?

count(字段)只包括列名那一列,在统计结果的时候,会忽略列值为空(这里的空不是只空字符串或者0,而是表示null)的计数, 即某个字段值为NULL时,不统计。列名为主键,count(指定字段)会比count(1)快列名不为主键,count(1)会比count(指定字段)快。count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候, 不会忽略列值为NULL。count(*)包括了所有的列,相当于行数,在统计结果的时候, 不会忽略列值为NULL。

2024-04-03 17:28:11 216

原创 SQL-如何实现去重操作?

3、使用开窗函数去重,如用rank、row_number排序后取第一行。1、使用DISTINCT关键字去重。2、使用GROUP BY子句去重。

2024-04-03 17:25:30 105

原创 SQL-union、union all区别有哪些?

1、union: 对两个结果集进行并集操作, 不包括重复行,相当于distinct, 同时进行默认规则的排序;2、union all: 对两个结果集进行并集操作, 包括重复行, 即所有的结果全部显示, 不管是不是重复;3、在没有去重的前提下,使用union all的执行效率要比union高;

2024-04-03 16:22:42 107

原创 SQL-having和where的区别有哪些?

2、从语法看,where查询条件中不可以使用聚合函数和字段别名(也是因为sql执行顺序),而having查询条件中可以使用聚合函数和字段别名;1、从执行顺序看,where在group by之前执行,用于过滤数据行;having在group by之后执行,用于过滤分组;

2024-04-03 16:21:07 93

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除