目录
【第九章:Sentosa_DSML社区版-统计分析】
统计分析类算子主要是对数据做定性或定量分析,输出数据的相关指标供用户在数据分析过程中对衡量判断。统计分析类算子属于算子流中的中间算子。
9.1 斯皮尔曼相关性系数
1.算子介绍
斯皮尔曼相关性系数算子(SpearmanCorrelationNode)是实现斯皮尔曼相关性系数算法的算子,是衡量两个连续性变量的依赖性的非参数指标,利用单调方程评价两个统计变量的相关性。
2.算子类型
统计分析算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
input_list | 输入列名 | 必填 | List<String> | 无 | List 成员必须是inputDataModel中的列,至少要输入2列 | 设置需要计算斯皮尔曼相关性系数的列 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
参考算子属性input_list(输入列名)介绍
斯皮尔曼相关性系数算子属性
(3)算子的运行
该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等),该算子后可连接图表分析算子等形成算子流运行
图4.5.1-2 斯皮尔曼相关性系数算子流流程
9.2 皮尔森相关性系数
1.算子介绍
皮尔森相关性系数算子(PearsonCorrelationNode)是实现皮尔森相关性系数算法的算子,用来反映两个连续性变量线性相关程度的统计量。
2.算子类型
统计分析算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
input_list | 输入列表 | 必填 | List<String> | 无 | List 成员必须是inputDataModel中的列,至少要输入2列 | 设置需要计算皮尔森相关性系数的列 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
参考算子属性input_list(输入列名)介绍
皮尔森相关性系数算子属性
(3)算子的运行
该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等),该算子后可连接图表分析算子等形成算子流运行
皮尔森相关性系数算子算子流流程
9.3 描述
1.算子介绍
描述算子(DescribeNode)是将流入的数据集按照列进行归纳统计,并根据参数计算出异常值数量和极值数量。
2.算子类型
统计分析算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
outlier | 极值倍数 | 可选 | Int | 3 | 大于1 | 极值倍数 |
abnormal | 异常值倍数 | 可选 | Int | 5 | 大于1 并且大于outlier | 异常值倍数 |
极值为平均值加上或者减去指定倍数的标准差。
异常值为平均值加上或者减去指定倍数的标准差。
异常值指定倍数大于极值。
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2) 算子属性设置
描述算子属性
(3) 算子的运行
该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等)。因该算子为终结算子其后不可接其余算子
描述算子算子流流程
9.4 卡方检验
1.算子介绍
卡方检验算子(ChiSquareNode)是实现卡方检验算法的算子,统计离散型样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
2.算子类型
统计分析算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
input_list | 输入列名 | 必填 | List<String> | 无 | List 成员必须是inputDataModel中的列 | 设置需要计算两两卡方检验p值的列 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
图中1参考算子属性input_list(输入列名)介绍。
卡方检验算子属性
(3)算子的运行
该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等),该算子后可连接图表分析算子等形成算子流运行
卡方检验算子流流程
9.5 LB检验
1.算子介绍
纯随机性检验也叫白噪声检验,是专门用来检测序列是否为纯随机序列的一种方法,如果一个序列通过检验为纯随机序列,那么无法通过时间序列来进行预测。通过LB(Ljung-Box)检验算子(LBTestNode),我们可以判断一个时间序列是否为纯随机序列。
LB检验的原假设为延迟期数小于或等于m期的序列值之间相互独立,备择假设是延迟期数小于或等于m期的序列值之间有相关性。当p值小于0.05时,我们一般推翻原假设,认为序列为非白噪声序列;否则,接受原假设,认为该序列为存随机序列。
2.算子类型
统计分析算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
sort_column | 时间列 | 必填 | String | 无 | 时间列 | |
data_column | 数据列 | 必填 | String | 无 | 数据列 | |
lag | 阶数 | 必填 | Integer | 1 | [1,infinite) | 指定延迟期数 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
LB检验的属性设置如图所示
LB检验属性设置
参数的具体意义参考算子属性说明表格。
(3)算子的运行
该算子为结果输出算子,是终结点。该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等)。
LB检验算子流
图4.5.5-3 LB检验结果
9.6 ADF检验
1.算子介绍
在使用很多时间序列模型的时候,如 ARMA、ARIMA,都会要求时间序列是平稳的,所以一般在研究一段时间序列的时候,第一步都需要进行平稳性检验,除了用肉眼检测的方法,另外比较常用的严格的统计检验方法就是ADF检验,也叫做单位根检验。
ADF检验全称是Augmented Dickey-Fuller test,顾名思义,ADF是 Dickey-Fuller检验的增广形式。DF检验只适用于1阶自回归过程的平稳性检验,但是实际上绝大多数时间序列不会是一个简单的AR(1)过程。为了使DF检验能适用于AR(p)过程的平稳性检验,人们对DF检验进行了一定的修正,得到增广DF检验,即ADF检验。
ADF检验就是判断序列是否存在单位根:如果序列平稳,就不存在单位根;否则,就会存在单位根。ADF检验的 H0 假设就是存在单位根,序列不平稳,需要进行差分处理。备择假设是序列平稳。ADF检验会输出一个p值,一般p值小于0.05,我们认为序列平稳。
2.算子类型
统计分析算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
time_col | 时间列 | 必填 | String | 无 | 时间列 | |
value_col | 数据列 | 必填 | String | 无 | 数据列 | |
max_lag | 最大滞后阶数 | 必填 | Integer | 5 | [1,infinite) |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
ADF检验的属性设置如图所示
ADF检验属性设置
参数的具体意义参考算子属性说明表格。
(3)算子的运行
该算子为结果输出算子,是终结点。该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等)。
ADF检验算子流
ADF检验结果
9.7 ACF自相关函数
1.算子介绍
平稳序列通常具有短期相关性。该性质用自相关系数来描述就是随着延迟期数k的增加,平稳序列的自相关系数会很快地衰减向零。反之,非平稳序列的自相关系数衰减向零的速度比较慢。自相关函数用来度量时间序列中每隔 k 个时间单位(yt和 yt–k)的观测值之间的相关性。
2.算子类型
统计分析算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
time_column | 时间列 | 必填 | String | 无 | 时间列 | 时间列 |
data_column | 数值列 | 必填 | String | 无 | 数据列 | 数值列 |
confidence_bounds | 置信区间 | 必填 | Double | 0.95 | (0,1) | 置信区间 |
max_lag | 最大阶数 | 必填 | Integer | 15 | [1,infinite) | 最大阶数 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
ACF算子的属性设置如图所示
ACF算子属性设置
参数的具体意义参考算子属性说明表格。
(3)算子的运行
该算子为结果输出算子,是终结点。该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等)。
ACF算子流
ACF结果
9.8 PACF偏自相关函数
1.算子介绍
2.算子类型
统计分析算子
3.算子属性说明
属性 | 页面显示名称 | 选项 | 类型 | 默认值 | 约束规则 | 属性说明 |
time_column | 时间列 | 必填 | String | 无 | 时间列 | 时间列 |
data_column | 数值列 | 必填 | String | 无 | 数据列 | 数值列 |
confidence_bounds | 置信区间 | 必填 | Double | 0.95 | (0,1) | 置信区间 |
max_lag | 最大阶数 | 必填 | Integer | 15 | [1,infinite) | 最大阶数 |
4.算子使用介绍
(1)算子初始化
参考公共功能算子初始化操作
(2)算子属性设置
PACF算子的属性设置如图所示
PACF算子属性设置
参数的具体意义参考算子属性说明表格。
3. 算子的运行
该算子为结果输出算子,是终结点。该算子前可接数据读入算子,数据处理算子(例,行处理,列处理等)。样例算子流如图所示。
PACF算子流
算子流的输出如图所示
PACF结果
为了非商业用途的科研学者、研究人员及开发者提供学习、交流及实践机器学习技术,推出了一款轻量化且完全免费的Sentosa_DSML社区版。以轻量化一键安装、平台免费使用、视频教学和社区论坛服务为主要特点,能够与其他数据科学家和机器学习爱好者交流心得,分享经验和解决问题。文章最后附上官网链接,感兴趣工具的可以直接下载使用
Sentosa_DSML社区版https://sentosa.znv.com/https://sentosa.znv.com/
Sentosa_DSML算子流开发视频