hanhanyc-CSDN博客

原创时间序列 Task 4

ARMA 时间序列模型与预测ARMA 模型：自回归滑动平均模型 Autoregressive moving average model一、时间序列分析流程1. 分析的数据是否有价值？是否为白噪声序列？2. 分析的时间序列是否为平稳时间序列？如果不是平稳时间序列该怎么办？如果不是平稳时间序列，通过差分变换得到平稳时间序列模型。3. 当前的观测值受到之前几期数据的影响？分别受到 AR、 MA 模型的几期影响？比较直观的 ACF、 PACF 图判断；ACF 是一个完整的自相关函数，可为我们

2021-10-21 18:07:08 221

原创时间序列 Task3

常用时间序列模型一、差分指数平滑法当时间序列的变动具有直线趋势时，使用一次平滑法会出现滞后偏差，可以考虑对数据进行处理，使之能适合于一次指数平滑模型，以后再对输出结果作技术上的返回处理，使之恢复为原变量的形态。差分方法是改变数据变动趋势的简易方法。一阶差分指数平滑模型：一次平滑指数只用变量以往取值的加权平均数作为下一期的预测并不合理，把序列中逐期增量的加权平均数 (指数平滑值) 加上当前值的实际数进行预测更合理，而使预测值始终围绕实际值上下波动，从根本上解决了在有直线增长趋势的情况下，用一次指数平

2021-10-15 16:25:40 1096

原创时间序列 Task 2

手算时间序列时间序列也成为动态序列，其应用方向可大致分成三个部分，分别是描述过去、分析规律、预测未来。影响时间序列的因素有四个：长期变动趋势（T）、季节变动规律（S）、周期变动规律（C）、不规则变动（I）（也称为随机扰动项）。四种变动与指标数值最终变动的关系可能是叠加关系，也可能是乘积关系。移动平均法是根据时间序列资料逐渐推移，依次计算包含一定项数的时序平均数，以反映长期趋势的方法。当时间序列的数值由于受周期变动和不规则变动的影响，起伏较大，不易显示出发展趋势时，可用移动平均法，消除这些因素的影响，分

2021-10-14 18:23:00 1603

原创时间序列 Task 1

一、统计描述1、算数平均值和期望：算数平均值针对实验观察到的特征样本而言，期望针对于随机变量而言。2、表示变异程度的统计量—标准差、方差和极差为什么除以 n-1 不除以n3、中心矩、表示分布形状的统计量—偏度和峰度中心距：对于正整数 k，如果E(X)存在，且 E[∣X−E(X)]k<∞E[|X-E(X)]^k<∞E[∣X−E(X)]k<∞，则称 E[X−E(X)]kE{[X-E(X)]^k}E[X−E(X)]k 为随机变量 X 的 k 阶中心矩。如 X 的方差是 X 的

2021-10-12 16:29:54 189

原创图神经网络 Task 5

超大图上的节点表征学习普通的基于SGD（随机梯度下降方法）的图神经网络：随着图神经网络层数增加，计算成本呈指数增长；保存整个图的信息和每一层每个节点的表征到内存（显存）而消耗巨大内存（显存）空间。针对这些问题，论文Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Network提出了一种新的图神经网络的训练方法。Cluster-GCN方法简单概括利用图节点聚类算法将一个图的节

2021-06-30 17:33:01 369

原创图神经网络 Task 4

数据完全存于内存的数据集类本章节主要学习构造InMemory数据集类的方式，这是一种完全存储于内存的数据集类。学习安排：学习PyG规定的使用数据集的一般过程；学习InMemoryDataset基类；学习一个简化的InMemory数据集类；学习一个InMemory数据集类实例，以及使用该数据集类时会发生的一些过程。一、使用数据集的一般过程PyG定义了使用数据的一般过程：从网络上下载数据原始文件；对数据原始文件做处理，为每一个图样本生成一个Data对象；对每一个Data对象执行数据处

2021-06-27 16:33:21 511

原创图神经网络 Task 3

基于图神经网络的节点表征学习类似于之前学习任务的特征构造，在图节点预测或者边预测任务中，构造节点表征也是非常重要的一环。在节点预测任务中，我们拥有一个图，图上有很多节点，部分节点的预测标签已知，部分节点的预测标签未知。我们的任务是根据节点的属性(可以是类别型、也可以是数值型)、边的信息、边的属性（如果有的话）、已知的节点预测标签，对未知标签的节点做预测。本节会以Cora数据集为例，Cora是一个论文引用网络，节点代表论文，如果两篇论文存在引用关系，那么认为对应的两个节点之间存在边，每个节点由一个143

2021-06-23 11:19:47 1057

原创图神经网络 Task 2

消息传递图神经网络图计算任务的关键：为节点生成节点特征。本节任务：1、基于神经网络的生成节点表征的范式–消息传递范式。是一种聚合邻接节点信息来更新中心节点信息的范式。包含三个步骤：邻接节点信息交换邻接节点信息聚合导中心节点据合信息变换2、基于消息传递范式构建图神经网络一、消息传递范式介绍用x(k−1)i∈RF\mathbf{x}^{(k-1)}i\in\mathbb{R}^Fx(k−1)i∈RF表示(k-1)层中节点i的节点特征，ej,i∈RD\mathbf{e}{j,i} \in

2021-06-18 17:55:21 1025

原创图神经网络 Task 1

图结构数据一、图的表示1、图一个图被记为 G=V,E\mathcal{G}={\mathcal{V}, \mathcal{E}}G=V,E，其中V={v1,…,vN}\mathcal{V}=\{{v_{1}, \ldots, v_{N} }\}V={v1,…,vN} 是数量为 N=∣V∣N=|\mathcal{V}|N=∣V∣的节点的集合， E={e1,…,eM}\mathcal{E}=\{e_{1}, \ldots, e_{M} \}E={e1,…,eM} 是数量为 MMM的边的集合

2021-06-16 17:41:35 311

原创异常检测 Task 5

本章内容为高维数据异常检测，主要包括：Feature Bagging孤立森林1、引言高维数据的困难：1、由于数据维度的上升，数据的样本空间会呈指数级别增长，使得数据变得稀疏。2、维度越高，计算距离的计算量越大，并且由于空间的稀疏性，很多点之间的距离相差不大。高维度场景下，一个常用的方法是子空间方法，集成是子空间思想中常用的方法之一。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好，一些算法在其他子集上表现很好，然后集成起来使得输出更加鲁棒。集成方法与

2021-05-21 16:16:27 240

原创异常检测 Task 4

本章内容为异常检测–基于相似度的方法1、概述基于相似度的技术在数据点稀疏或与其他数据点相似度低时将其定义为异常值。在普通的数据处理中，我们常常需要保留正常数据，而对噪声和异常值的特性则基本忽略。但在异常检测中，我们弱化了“噪声”和“正常数据”之间的区别，专注于那些具有有价值特性的异常值。离群值分析中定义相似度的最常用方法如下:基于距离的方法：数据点到其 k- 最近邻(或其他变量)的距离用于定义邻近度。具有大的 k- 近邻距离的数据点被定义为离群点。基于距离的算法通常比其他两种方法在更细的粒度上执行分

2021-05-20 09:47:00 361

原创异常检测 Task 3

引言真实数据集中不同维度的数据通常具有高度的相关性，这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中，有一种常用的参数化的相关性分析——回归建模。试图通过其他变量预测单独的属性值，比如线性回归。用一些潜在变量来代表整个数据，比如主成分分析。需要明确的是，这里有两个重要的假设：假设一：近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假设二：子空间假设。子空间假设认为数据是镶嵌在低维子空间中的，线性方法的目的是找到合适的低维子空间使得异常点

2021-05-17 18:08:31 320

原创异常检测 Task2

本次内容为异常检测——基于统计学的方法1、概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生，而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。统计学方法是基于数据的经验分布进行异常检测，该方法的优点是可以对任意分布的数据进行异常检测，属于无监督学习方法，不需要标记的样本，面临的问题是现实中的数据并不一定符合某种分布。一般思想：学习一个拟合给定数据集的生成模型，然后识别该模型低概率区域中的对象，把它们作为异常点。即利用

2021-05-14 21:08:27 945

原创异常检测 Task 1

一、什么是异常检测异常检测是机器学习种一个非常重要的分支，从定义而言，异常检测（Outlier Detection）是识别与正常数据不同的数据，与预期行为差异大的数据。比如在数据挖掘领域中的信用卡盗刷、超大金额支出、网络入侵等；在计算机视觉领域中的不符合分类的图片等。1、异常的类别点异常 Point （点集）：指少数个体实例时异常的，大多数个体实例是正常的。比如每天的支出都在1元、2元，如果有一天支出1万元，就可以出现了异常；比如健康和非健康人的健康指标。如下图，o1,o2o_1, o_2o1,o2

2021-05-11 15:47:02 1315 1

chiyuhan89的博客