- 博客(12)
- 资源 (14)
- 问答 (4)
- 收藏
- 关注
原创 图表征学习与图预测
超大规模数据集类的创建在前面的学习中我们只接触了数据可全部储存于内存的数据集,这些数据集对应的数据集类在创建对象时就将所有数据都加载到内存。然而在一些应用场景中,数据集规模超级大,我们很难有足够大的内存完全存下所有数据。因此需要一个按需加载样本到内存的数据集类。在此上半节内容中,我们将学习为一个包含上千万个图样本的数据集构建一个数据集类。Dataset基类简介在PyG中,我们通过继承torch_geometric.data.Dataset基类来自定义一个按需加载样本到内存的数据集类。此基类与Torch
2021-07-08 22:55:01 445 2
原创 基于图神经网络的图表征学习的一般过程
基于图神经网络的图表征学习方法引言在此篇文章中我们将学习基于图神经网络的图表征学习方法,图表征学习要求根据节点属性、边和边的属性(如果有的话)生成一个向量作为图的表征,基于图表征我们可以做图的预测。基于图同构网络(Graph Isomorphism Network, GIN)的图表征网络是当前最经典的图表征学习网络,我们将以它为例,通过该网络的实现、项目实践和理论分析,三个层面来学习基于图神经网络的图表征学习方法。提出图同构网络的论文:How Powerful are Graph Neural Net
2021-07-04 11:35:19 315
原创 超大图上节点表征学习
超大图上的节点表征学习注:此节文章翻译并整理自提出Cluster-GCN的论文:Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Network引言图神经网络已经成功地应用于许多图节点或边的预测任务中,然而,在超大图上进行图神经网络的训练仍然具有挑战性。普通的基于SGD的图神经网络的训练方法,要么面临着随着图神经网络层数增加计算成本呈指数增长的问题,要么面临着保存整个图的信息和每一层每
2021-06-30 15:27:21 287
原创 节点表征学习与节点预测和边预测
数据完全存于内存的数据集类引言在上一节内容中,我们学习了基于图神经网络的节点表征学习方法,并用了现成的很小的数据集实现了节点分类任务。在此第6节的上半部分,我们将学习在PyG中如何自定义一个数据完全存于内存的数据集类。InMemoryDataset基类简介在PyG中,我们通过继承InMemoryDataset类来自定义一个数据可全部存储到内存的数据集类。class InMemoryDataset(root: Optional[str] = None, transform: Opti
2021-06-25 16:09:23 267
原创 节点表征学习与节点预测和边预测
基于图神经网络的节点表征学习引言在图节点预测或边预测任务中,需要先构造节点表征(representation),节点表征是图节点预测和边预测任务成功的关键。在此篇文章中,我们将学习如何基于图神经网络学习节点表征。在节点预测任务中,我们拥有一个图,图上有很多节点,部分节点的预测标签已知,部分节点的预测标签未知。我们的任务是根据节点的属性(可以是类别型、也可以是数值型)、边的信息、边的属性(如果有的话)、已知的节点预测标签,对未知标签的节点做预测。我们将以Cora数据集为例子进行说明,Cora是一个论文
2021-06-22 22:15:23 3212
原创 实现图神经网络的消息传递范式
消息传递图神经网络一、引言在开篇中我们介绍了,为节点生成节点表征(Node Representation)是图计算任务成功的关键,我们要利用神经网络来学习节点表征。消息传递范式是一种聚合邻接节点信息来更新中心节点信息的范式,它将卷积算子推广到了不规则数据领域,实现了图与神经网络的连接。消息传递范式因为简单、强大的特性,于是被人们广泛地使用。遵循消息传递范式的图神经网络被称为消息传递图神经网络。本节中,首先我们将学习图神经网络生成节点表征的范式–消息传递(Message Passing)范式。接着我
2021-06-18 16:55:05 889
原创 图论与程序中图的操作
图结构数据一、图的表示定义一(图):一个图被记为G={V,E}\mathcal{G}=\{\mathcal{V}, \mathcal{E}\}G={V,E},其中 V={v1,…,vN}\mathcal{V}=\left\{v_{1}, \ldots, v_{N}\right\}V={v1,…,vN}是数量为N=∣V∣N=|\mathcal{V}|N=∣V∣ 的结点的集合, E={e1,…,eM}\mathcal{E}=\left\{e_{1}, \ldots, e_{M}\right\}E={
2021-06-15 23:49:34 248
原创 异常检测介绍(5)
高维数据异常检测引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。集成是子空间思想中常用的方法之一,可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器
2021-01-24 21:01:55 449 3
原创 异常检测介绍(4)
基于相似度的方法概述“异常” 通常是一个主观的判断,什么样的数据被认为是“异常"的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异常值的特性则基本忽略。但在异常检测中,我们弱化了“噪声”和“正常
2021-01-21 19:00:20 314
原创 异常检测介绍(3)
线性模型引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是线性回归,后者一个典型的例子是主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。需要明确的是,这里有两个重要的假设:假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假设
2021-01-17 21:53:48 377
原创 异常检测介绍(2)
基于统计学的方法概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法假定正常的数据对象被一个以
2021-01-15 21:52:40 317
原创 异常检测介绍(1)
参考资料:[1] DataWhale材料[2] https://www.biaodianfu.com/sklearn-anomaly-detection.html[3] https://pyod.readthedocs.io/en/latest/example.html一、概述1、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。 识别如信用卡欺诈,工业生产异常,网络流⾥的异常(网络侵入)等问题,针对的是少数的事件。.
2021-01-12 16:03:56 732
corpus.rar
2019-12-14
深入浅出强化学习原理入门.rar
2019-07-04
统计自然语言处理(宗成庆 第二版)
2018-03-01
Computer Systems: A Programmer's Perspective, 3rd Edition, PDF
2017-10-30
WinRAR破解版无须注册
2015-02-13
奇点临近(The Singularity Is Near: When Humans Transcend Biology)
2014-12-10
c++语言版魂斗罗 可改命
2013-12-08
Python爬取网页requests乱码
2017-06-18
正则表达式匹配指定字符之间的字符串
2017-05-15
如何用正则表达式匹配HTML标签内文字内容
2017-05-12
如何统计mysql里某个字段有多少行里含有某个字符?
2017-05-09
TA创建的收藏夹 TA关注的收藏夹
TA关注的人