公众号:异度侵入
“规格严格,功夫到家”
OGB是斯坦福开源的图神经的数据集和评测榜单,包括了节点性质预测,边的连接预测,以及小图性质的预测三种任务。近日,kdd和OGB的官方合作举办了大规模图数据上的节点分类,边连接预测以及图性质预测三个赛道的比赛。节点分类数据集160g,还在下载,使用OGB的ogbn-arxiv数据集做算法预热。
01 ogbn-arxiv
ogbn-arxiv数据集是有向图,表示arxiv网站上所有计算机相关论文引用网络。每个节点就是一篇arxiv论文,每条边都表示一篇文章引用另一篇文章。每篇文章有128维的特征向量,这是将文章的标题以及摘要向量化后取平均得到。使用的embedding是通过skip-gram模型在MAG语料获得,同时,还有论文的发表年份信息。
02 可视化
import pandas as pd
from torch_geometric.data import DataLoader
from tqdm import tqdm
# Download and process data at './dataset/ogbg_molhiv/'
from ogb.nodeproppred import PygNodePropPredDataset, Evaluator
import torch
from torch import nn
from torch.utils.data import DataLoader, Dataset
import numpy as np
import seaborn as sns
import torch_geometric.transforms as T
import networkx as nx
from pyvis.network import Network
# 处理成Dataframe()格式是因为在Dataframe()

本文介绍了斯坦福OGB的ogbn-arxiv数据集,这是一个表示arxiv论文引用网络的有向图,包含论文特征向量和发表年份信息。通过可视化,发现在大量高引论文之外,存在许多引用和被引用极少的“孤立”文章。使用图神经网络如graphsage进行节点分类,相较于不使用图算法,准确率显著提高,表明邻居信息对分类至关重要,为解决此类问题提供了提升空间。
最低0.47元/天 解锁文章
3680

被折叠的 条评论
为什么被折叠?



