公众号:异度侵入
“规格严格,功夫到家”
OGB是斯坦福开源的图神经的数据集和评测榜单,包括了节点性质预测,边的连接预测,以及小图性质的预测三种任务。近日,kdd和OGB的官方合作举办了大规模图数据上的节点分类,边连接预测以及图性质预测三个赛道的比赛。节点分类数据集160g,还在下载,使用OGB的ogbn-arxiv数据集做算法预热。
01 ogbn-arxiv
ogbn-arxiv数据集是有向图,表示arxiv网站上所有计算机相关论文引用网络。每个节点就是一篇arxiv论文,每条边都表示一篇文章引用另一篇文章。每篇文章有128维的特征向量,这是将文章的标题以及摘要向量化后取平均得到。使用的embedding是通过skip-gram模型在MAG语料获得,同时,还有论文的发表年份信息。
02 可视化
import pandas as pd
from torch_geometric.data import DataLoader
from tqdm import tqdm
# Download and process data at './dataset/ogbg_molhiv/'
from ogb.nodeproppred import PygNodePropPredDataset, Evaluator
import torch
from torch import nn
from torch.utils.data import DataLoader, Dataset
import numpy as np
import seaborn as sns
import torch_geometric.transforms as T
import networkx as nx
from pyvis.network import Network
# 处理成Dataframe()格式是因为在Dataframe()