【第九章:Sentosa_DSML社区版-统计分析】

目录

【第九章:Sentosa_DSML社区版-统计分析】

9.1 斯皮尔曼相关性系数

9.2 皮尔森相关性系数

9.3 描述

9.4 卡方检验

9.5 LB检验

9.6 ADF检验

9.7 ACF自相关函数

9.8 PACF偏自相关函数


【第九章:Sentosa_DSML社区版-统计分析】

        统计分析类算子主要是对数据做定性或定量分析,输出数据的相关指标供用户在数据分析过程中对衡量判断。统计分析类算子属于算子流中的中间算子。

9.1 斯皮尔曼相关性系数

1.算子介绍

        斯皮尔曼相关性系数算子(SpearmanCorrelationNode)是实现斯皮尔曼相关性系数算法的算子,是衡量两个连续性变量的依赖性的非参数指标,利用单调方程评价两个统计变量的相关性。

2.算子类型

        统计分析算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

input_list

输入列名

必填

List<String>

List 成员必须是inputDataModel中的列,至少要输入2列

设置需要计算斯皮尔曼相关性系数的列

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

        参考算子属性input_list(输入列名)介绍

斯皮尔曼相关性系数算子属性

(3)算子的运行

        该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等),该算子后可连接图表分析算子等形成算子流运行

图4.5.1-2 斯皮尔曼相关性系数算子流流程

9.2 皮尔森相关性系数

1.算子介绍

        皮尔森相关性系数算子(PearsonCorrelationNode)是实现皮尔森相关性系数算法的算子,用来反映两个连续性变量线性相关程度的统计量。

2.算子类型

        统计分析算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

input_list

输入列表

必填

List<String>

List 成员必须是inputDataModel中的列,至少要输入2列

设置需要计算皮尔森相关性系数的列

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

        参考算子属性input_list(输入列名)介绍

皮尔森相关性系数算子属性

(3)算子的运行

        该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等),该算子后可连接图表分析算子等形成算子流运行

皮尔森相关性系数算子算子流流程

9.3 描述

1.​​​​​​​算子介绍

        描述算子(DescribeNode)是将流入的数据集按照列进行归纳统计,并根据参数计算出异常值数量和极值数量。​​​​​​​

2.算子类型

        统计分析算子

3.​​​​​​​算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

outlier

极值倍数

可选

Int

3

大于1

极值倍数

abnormal

异常值倍数

可选

Int

5

大于1 并且大于outlier

异常值倍数

        极值为平均值加上或者减去指定倍数的标准差。

        异常值为平均值加上或者减去指定倍数的标准差。

        异常值指定倍数大于极值。

4.​​​​​​​算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2) 算子属性设置

描述算子属性

(3) 算子的运行

        该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等)。因该算子为终结算子其后不可接其余算子

描述算子算子流流程

9.4 卡方检验

1.​​​​​​​算子介绍

        卡方检验算子(ChiSquareNode)是实现卡方检验算法的算子,统计离散型样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

2.​​​​​​​算子类型

        统计分析算子

3.​​​​​​​算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

input_list

输入列名

必填

List<String>

List 成员必须是inputDataModel中的列

设置需要计算两两卡方检验p值的列

4.​​​​​​​算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

        图中1参考算子属性input_list(输入列名)介绍。

卡方检验算子属性

(3)算子的运行

        该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等),该算子后可连接图表分析算子等形成算子流运行

卡方检验算子流流程

9.5 LB检验

1.​​​​​​​算子介绍

        纯随机性检验也叫白噪声检验,是专门用来检测序列是否为纯随机序列的一种方法,如果一个序列通过检验为纯随机序列,那么无法通过时间序列来进行预测。通过LB(Ljung-Box)检验算子(LBTestNode),我们可以判断一个时间序列是否为纯随机序列。

        LB检验的原假设为延迟期数小于或等于m期的序列值之间相互独立,备择假设是延迟期数小于或等于m期的序列值之间有相关性。当p值小于0.05时,我们一般推翻原假设,认为序列为非白噪声序列;否则,接受原假设,认为该序列为存随机序列。

2.​​​​​​​算子类型

        统计分析算子

​​​​​​​3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

sort_column

时间列

必填

String

时间列

data_column

数据列

必填

String

数据列

lag

阶数

必填

Integer

1

[1,infinite)

指定延迟期数

4.​​​​​​​算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

        LB检验的属性设置如图所示

LB检验属性设置

        参数的具体意义参考算子属性说明表格。

(3)算子的运行

        该算子为结果输出算子,是终结点。该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等)。

LB检验算子流

图4.5.5-3 LB检验结果

9.6 ADF检验

1.​​​​​​​算子介绍

        在使用很多时间序列模型的时候,如 ARMA、ARIMA,都会要求时间序列是平稳的,所以一般在研究一段时间序列的时候,第一步都需要进行平稳性检验,除了用肉眼检测的方法,另外比较常用的严格的统计检验方法就是ADF检验,也叫做单位根检验。

        ADF检验全称是Augmented Dickey-Fuller test,顾名思义,ADF是 Dickey-Fuller检验的增广形式。DF检验只适用于1阶自回归过程的平稳性检验,但是实际上绝大多数时间序列不会是一个简单的AR(1)过程。为了使DF检验能适用于AR(p)过程的平稳性检验,人们对DF检验进行了一定的修正,得到增广DF检验,即ADF检验。

        ADF检验就是判断序列是否存在单位根:如果序列平稳,就不存在单位根;否则,就会存在单位根。ADF检验的 H0 假设就是存在单位根,序列不平稳,需要进行差分处理。备择假设是序列平稳。ADF检验会输出一个p值,一般p值小于0.05,我们认为序列平稳。

2.​​​​​​​算子类型

        统计分析算子

3.​​​​​​​算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

time_col

时间列

必填

String

时间列

value_col

数据列

必填

String

数据列

max_lag

最大滞后阶数

必填

Integer

5

[1,infinite)

​​​​​​​4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

        ADF检验的属性设置如图所示

ADF检验属性设置

        参数的具体意义参考算子属性说明表格。

(3)算子的运行

        该算子为结果输出算子,是终结点。该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等)。

ADF检验算子流

ADF检验结果

9.7 ACF自相关函数

​​​​​​​1.算子介绍

        平稳序列通常具有短期相关性。该性质用自相关系数来描述就是随着延迟期数k的增加,平稳序列的自相关系数会很快地衰减向零。反之,非平稳序列的自相关系数衰减向零的速度比较慢。自相关函数用来度量时间序列中每隔 k 个时间单位(yt和 yt–k)的观测值之间的相关性。

2.​​​​​​​算子类型

        统计分析算子

3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

time_column

时间列

必填

String

时间列

时间列

data_column

数值列

必填

String

数据列

数值列

confidence_bounds

置信区间

必填

Double

0.95

(0,1)

置信区间

max_lag

最大阶数

必填

Integer

15

[1,infinite)

最大阶数

4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作

(2)算子属性设置

        ACF算子的属性设置如图所示

ACF算子属性设置

        参数的具体意义参考算子属性说明表格。

(3)算子的运行

        该算子为结果输出算子,是终结点。该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等)。

ACF算子流

ACF结果

9.8 PACF偏自相关函数

1.​​​​​​​算子介绍​​​​​​​

2.​​​​​​​算子类型

        统计分析算子

​​​​​​​​​​​​​​3.算子属性说明

属性

页面显示名称

选项

类型

默认值

约束规则

属性说明

time_column

时间列

必填

String

时间列

时间列

data_column

数值列

必填

String

数据列

数值列

confidence_bounds

置信区间

必填

Double

0.95

(0,1)

置信区间

max_lag

最大阶数

必填

Integer

15

[1,infinite)

最大阶数

​​​​​​​​​​​​​​4.算子使用介绍

(1)算子初始化

        参考公共功能算子初始化操作      

(2)算子属性设置

        PACF算子的属性设置如图所示

PACF算子属性设置

        参数的具体意义参考算子属性说明表格。

3. 算子的运行

        该算子为结果输出算子,是终结点。该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等)。样例算子流如图所示。

PACF算子流

        算子流的输出如图所示

PACF结果


  为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术,推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点,能够与其他数据科学家和机器学习爱好者交流心得,分享经验和解决问题。文章最后附上官网链接,感兴趣工具的可以直接下载使用

Sentosa_DSML社区版https://sentosa.znv.com/icon-default.png?t=O83Ahttps://sentosa.znv.com/

Sentosa_DSML算子流开发视频

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Kenneth風车

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值