自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 时间序列 Task 4

ARMA 时间序列模型与预测ARMA 模型:自回归滑动平均模型 Autoregressive moving average model一、时间序列分析流程1. 分析的数据是否有价值?是否为白噪声序列?2. 分析的时间序列是否为平稳时间序列?如果不是平稳时间序列该怎么办?如果不是平稳时间序列,通过差分变换得到平稳时间序列模型。3. 当前的观测值受到之前几期数据的影响?分别受到 AR、 MA 模型的几期影响?比较直观的 ACF、 PACF 图判断;ACF 是一个完整的自相关函数,可为我们

2021-10-21 18:07:08 178

原创 时间序列 Task3

常用时间序列模型一、差分指数平滑法当时间序列的变动具有直线趋势时,使用一次平滑法会出现滞后偏差,可以考虑对数据进行处理,使之能适合于一次指数平滑模型,以后再对输出结果作技术上的返回处理,使之恢复为原变量的形态。差分方法是改变数据变动趋势的简易方法。一阶差分指数平滑模型:一次平滑指数只用变量以往取值的加权平均数作为下一期的预测并不合理,把序列中逐期增量的加权平均数 (指数平滑值) 加上当前值的实际数进行预测更合理,而使预测值始终围绕实际值上下波动,从根本上解决了在有直线增长趋势的情况下,用一次指数平

2021-10-15 16:25:40 757

原创 时间序列 Task 2

手算时间序列时间序列也成为动态序列,其应用方向可大致分成三个部分,分别是描述过去、分析规律、预测未来。影响时间序列的因素有四个:长期变动趋势(T)、季节变动规律(S)、周期变动规律(C)、不规则变动(I)(也称为随机扰动项)。四种变动与指标数值最终变动的关系可能是叠加关系,也可能是乘积关系。移动平均法是根据时间序列资料逐渐推移,依次计算包含一定项数的时序平均数,以反映长期趋势的方法。当时间序列的数值由于受周期变动和不规则变动的影响,起伏较大,不易显示出发展趋势时,可用移动平均法,消除这些因素的影响,分

2021-10-14 18:23:00 978

原创 时间序列 Task 1

一、统计描述1、算数平均值和期望:算数平均值针对实验观察到的特征样本而言,期望针对于随机变量而言。2、表示变异程度的统计量—标准差、方差和极差为什么除以 n-1 不除以n3、中心矩、表示分布形状的统计量—偏度和峰度中心距:对于正整数 k,如果E(X)存在,且 E[∣X−E(X)]k<∞E[|X-E(X)]^k<∞E[∣X−E(X)]k<∞,则称 E[X−E(X)]kE{[X-E(X)]^k}E[X−E(X)]k 为随机变量 X 的 k 阶中心矩。如 X 的方差是 X 的

2021-10-12 16:29:54 141

原创 图神经网络 Task 5

超大图上的节点表征学习普通的基于SGD(随机梯度下降方法)的图神经网络:随着图神经网络层数增加,计算成本呈指数增长;保存整个图的信息和每一层每个节点的表征到内存(显存)而消耗巨大内存(显存)空间。针对这些问题,论文Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Network提出了一种新的图神经网络的训练方法。Cluster-GCN方法简单概括利用图节点聚类算法将一个图的节

2021-06-30 17:33:01 298

原创 图神经网络 Task 4

数据完全存于内存的数据集类本章节主要学习构造InMemory数据集类的方式,这是一种完全存储于内存的数据集类。学习安排:学习PyG规定的使用数据集的一般过程;学习InMemoryDataset基类;学习一个简化的InMemory数据集类;学习一个InMemory数据集类实例,以及使用该数据集类时会发生的一些过程。一、使用数据集的一般过程PyG定义了使用数据的一般过程:从网络上下载数据原始文件;对数据原始文件做处理,为每一个图样本生成一个Data对象;对每一个Data对象执行数据处

2021-06-27 16:33:21 417

原创 图神经网络 Task 3

基于图神经网络的节点表征学习类似于之前学习任务的特征构造,在图节点预测或者边预测任务中,构造节点表征也是非常重要的一环。在节点预测任务中,我们拥有一个图,图上有很多节点,部分节点的预测标签已知,部分节点的预测标签未知。我们的任务是根据节点的属性(可以是类别型、也可以是数值型)、边的信息、边的属性(如果有的话)、已知的节点预测标签,对未知标签的节点做预测。本节会以Cora数据集为例,Cora是一个论文引用网络,节点代表论文,如果两篇论文存在引用关系,那么认为对应的两个节点之间存在边,每个节点由一个143

2021-06-23 11:19:47 858

原创 图神经网络 Task 2

消息传递图神经网络图计算任务的关键: 为节点生成节点特征。本节任务:1、基于神经网络的生成节点表征的范式–消息传递范式。是一种聚合邻接节点信息来更新中心节点信息的范式。包含三个步骤:邻接节点信息交换邻接节点信息聚合导中心节点据合信息变换2、基于消息传递范式构建图神经网络一、消息传递范式介绍用x(k−1)i∈RF\mathbf{x}^{(k-1)}i\in\mathbb{R}^Fx(k−1)i∈RF表示(k-1)层中节点i的节点特征,ej,i∈RD\mathbf{e}{j,i} \in

2021-06-18 17:55:21 879

原创 图神经网络 Task 1

图结构数据一、图的表示1、图一个图被记为 G=V,E\mathcal{G}={\mathcal{V}, \mathcal{E}}G=V,E,其中V={v1,…,vN}\mathcal{V}=\{{v_{1}, \ldots, v_{N} }\}V={v1​,…,vN​} 是数量为 N=∣V∣N=|\mathcal{V}|N=∣V∣的节点的集合, E={e1,…,eM}\mathcal{E}=\{e_{1}, \ldots, e_{M} \}E={e1​,…,eM​} 是数量为 MMM的边的集合

2021-06-16 17:41:35 251

原创 异常检测 Task 5

本章内容为高维数据异常检测,主要包括:Feature Bagging孤立森林1、引言高维数据的困难:1、由于数据维度的上升,数据的样本空间会呈指数级别增长,使得数据变得稀疏。2、维度越高,计算距离的计算量越大,并且由于空间的稀疏性,很多点之间的距离相差不大。高维度场景下,一个常用的方法是子空间方法,集成是子空间思想中常用的方法之一。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好,一些算法在其他子集上表现很好,然后集成起来使得输出更加鲁棒。集成方法与

2021-05-21 16:16:27 184

原创 异常检测 Task 4

本章内容为异常检测–基于相似度的方法1、概述基于相似度的技术在数据点稀疏或与其他数据点相似度低时将其定义为异常值。在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异常值的特性则基本忽略。但在异常检测中,我们弱化了“噪声”和“正常数据”之间的区别,专注于那些具有有价值特性的异常值。离群值分析中定义相似度的最常用方法如下:基于距离的方法:数据点到其 k- 最近邻(或其他变量)的距离用于定义邻近度。具有大的 k- 近邻距离的数据点被定义为离群点。基于距离的算法通常比其他两种方法在更细的粒度上执行分

2021-05-20 09:47:00 256

原创 异常检测 Task 3

引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,有一种常用的参数化的相关性分析——回归建模。试图通过其他变量预测单独的属性值,比如线性回归。用一些潜在变量来代表整个数据,比如主成分分析。需要明确的是,这里有两个重要的假设:假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点

2021-05-17 18:08:31 248

原创 异常检测 Task2

本次内容为异常检测——基于统计学的方法1、概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。 统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。统计学方法是基于数据的经验分布进行异常检测,该方法的优点是可以对任意分布的数据进行异常检测,属于无监督学习方法,不需要标记的样本,面临的问题是现实中的数据并不一定符合某种分布。一般思想: 学习一个拟合给定数据集的生成模型,然后识别该模型低概率区 域中的对象,把它们作为异常点。即利用

2021-05-14 21:08:27 803

原创 异常检测 Task 1

一、什么是异常检测异常检测是机器学习种一个非常重要的分支,从定义而言,异常检测(Outlier Detection)是识别与正常数据不同的数据,与预期行为差异大的数据。比如在数据挖掘领域中的信用卡盗刷、超大金额支出、网络入侵等;在计算机视觉领域中的不符合分类的图片等。1、异常的类别点异常 Point (点集):指少数个体实例时异常的,大多数个体实例是正常的。比如每天的支出都在1元、2元,如果有一天支出1万元,就可以出现了异常;比如健康和非健康人的健康指标。如下图,o1,o2o_1, o_2o1​,o2

2021-05-11 15:47:02 1121 1

原创 零基础入门数据挖掘 - 二手车交易价格预测 Task5

本次的任务是模型融合。首先,搞明白什么是模型融合:模型融合就是综合考虑不同模型的情况,并将它们的结果融合到一起。模型融合主要通过几部分来实现:从提交结果文件中融合、stacking和blending。集成学习(Ensemble Learning)在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好)。集成学习就是组合这里的多个弱监督模型以期得到一个更好更全面的强监督

2021-04-24 23:32:52 661 1

原创 零基础入门数据挖掘 - 二手车交易价格预测 Task4

本次的任务为建模与调参。花了一下午的时间看了线性回归模型、决策树模型、GBDT模型、XGBoost、LightBGM模型的相关算法原理,除了线性回归,其他只能说一脸懵逼,可能不是我这个水平能去看的…连方向导数、梯度这种概念都要去现学。多多少少懵懵懂懂知道了一些,先来做本次作业,接下来有时间再好好研究,立个flag,一定要看懂!先把方向导数和梯度记录一下:方向导数 = 梯度 * 直线 l ~l~ l 单位向量∂f∂l∣(x0,y0)=gradf(x0,y0)⋅

2021-04-22 16:10:37 635 1

原创 零基础入门数据挖掘 - 二手车交易价格预测 Task3

本次任务为特征工程。在任务开始前,简单了解一下什么是特征工程。一、特征工程初步了解特征工程(FeatureEngineering)特征工程是将原始数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。举一个简单的例子:我们想以某城市的区为单位来预测房价,那么原始数据中的房屋所在经纬度数据就需要经过处理,将其根据经纬度归入某一区,这就是一次简单的特征工程,从原始数据创造了新的数据,而新的数据才能更好的完成本次任务。当然,并非所有的属性都是特征,只

2021-04-19 16:52:03 729 2

原创 零基础入门数据挖掘 - 二手车交易价格预测 Task2

Task 2 的主要任务为数据探索性分析一、EDA简介和目的简介:EDA(探索性数据分析),是指对已有的数据在尽量少的先验假定下进行探索,通过作图、指标、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。不同于初始数据分析,它更集中于检查模型拟合和假设检验所需的假设,以及处理缺少的值,并根据需要进行变量转换。我个人觉得,这是数据分析的第一环,也是非常重要的一环,后面所有的分析和建模都是基于这一步。目的:1、数据整体情况如何?2、数据缺失情况如何?缺失的数据是放弃还是补充?补充的

2021-04-16 18:53:04 361

原创 零基础入门数据挖掘 - 二手车交易价格预测 Task 1

数据背景https://tianchi.aliyun.com/competition/entrance/231784/information零基础入门数据挖掘-二手车交易价格预测赛题分析本次赛题实质为一次回归分析,可使用数据挖掘常用库或者框架来做catboost:可赋予分类变量指标,进而通过独热最大量得到独热编码形式的结果lbg:和 CatBoost 类似,LighGBM 也可以通过使用特征名称的输入来处理属性数据;它没有对数据进行独热编码,因此速度比独热编码快得多。LGBM 使用了一个特殊的算

2021-04-12 16:59:05 298 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除