GNN模型输入数据处理方法

提示:参考上一篇文章:图神经网络GNN实践入门


前言

  • 本篇是基于torch_geometric对图神经网络的进一步实践,将真实数据集处理成模型需要的格式。
  • 可以将这种思想应用到处理自己的数据集上。

提示:以下是本篇文章正文内容,下面案例可供参考

一、数据集简介

  • 一个商品购买数据集
  • yoochoose-clicks:表示用户的浏览行为,其中一个session_id就表示一次登录都浏览了什么商品。
  • item-id:表示该用户所浏览的商品,其中yoochoose-buys描述了他最终是否会购买,相当于标签。
  • 数据集下载网址:https://www.kaggle.com/datasets/chadgostopp/recsys-challenge-2015

二、数据处理方法

1.引入库

代码如下(示例):

import os
import pandas as pd
from sklearn.preprocessing import LabelEncoder
import torch
from torch_geometric.data import InMemoryDataset, Data
from tqdm import tqdm
  • LabelEncoder:用于将分类变量(如‘item_id’)转换为数字编码。
  • torch 和 torch_geometric.data:用于处理和定义图数据结构。
  • tqdm:用于显示进度条。

2、数据集基本预处理

1)读取文件

from sklearn.preprocessing import LabelEncoder
import pandas as pd

df = pd.read_csv('yoochoose-clicks.dat', header=None)
df.columns = ['session_id', 'timestamp', 'item_id', 'category']

buy_df = pd.read_csv('yoochoose-buys.dat', header=None)
buy_df.columns = ['session_id', 'timestamp', 'item_id', 'price', 'quality']
#对‘item_id’列进行编码
item_encoder = LabelEncoder()
df['item_id'] = item_encoder.fit_transform(df.item_id)
#显示处理后的数据框前几行
df.head()
  • df 通常是 DataFrame 的缩写,表示一个数据框(DataFrame)对象。数据框是用于存储和操作二维数据表格的一种数据结构,类似于电子表格或数据库表格。df 通常是通过使用像 pandas 这样的库创建和操作的。
  • item_encoder.fit_transform(df.item_id): 对 df 数据框中的 item_id 列进行编码。fit_transform 方法首先拟合数据,然后对其进行转换,将 item_id 从原始的类别数据转换为数值数据。
  • df[‘item_id’] = …: 将编码后的 item_id 列重新赋值给 df 数据框中的 item_id 列。

2)随机抽取部分数据

import numpy as np
#数据有点多,选择一小部分来建模
sampled_session_id = np.random.choice(df.session_id.unique(), 100000, replace=False)
df = df.loc[df.session_id.isin(sampled_session_id)]
df.nunique()
  • df.session_id.unique(): 获取数据集中所有唯一的 session_id。
  • np.random.choice(…, 100000, replace=False): 从所有唯一的 session_id 中随机选择 100,000 个,不重复。
  • df.loc[df.session_id.isin(sampled_session_id)]: 过滤数据集,只保留随机选择的 session_id 对应的行。

3)添加标签列表

#创建‘label’列
df['label'] = df.session_id.isin(buy_df.session_id)
df.head()
  • df.session_id.isin(buy_df.session_id): 检查 df 中的每个 session_id 是否存在于 buy_df 的 session_id 列中。

3、用户行为图结构创建

  • 接下来我们制作数据集:
    • 把每个session_id都当做一个图,每个图具有多个点和标签
    • 其中每个图中的点就是其item_id,特征暂时用其id来表示,之后会继续完善。

代码如下:

class YooChooseBinaryDataset(InMemoryDataset):
    def __init__(self, root, transform=None, pre_transform=None):
        super(YooChooseBinaryDataset, self).__init__(root, transform, pre_transform)
        if os.path.exists(self.processed_paths[0]):
            self.data, self.slices = torch.load(self.processed_paths[0])
        else:
            print("Processed file not found. Processing dataset...")
            self.process()

  • init 方法:初始化数据集类。
  • root:数据集的根目录。
  • transform 和 pre_transform:数据变换方法(可选)。
  • 检查处理后的数据文件是否存在。如果存在,则加载数据,否则调用 process 方法处理数据。
 @property
    def processed_file_names(self):
        return ['yoochoose_click_binary_1M_sess.dataset']
  • processed_file_names:定义处理后的文件名列表。

1)数据处理方法

检查处理后的数据文件是否存在,如果存在则加载,否则处理数据。

data_list = []
 # 数据预处理:按‘session_id’分组
grouped = df.groupby('session_id')
#循环处理每个会话
for session_id, group in tqdm(grouped):
	#每个session_id数据处理的代码

2)重置索引

group = group.reset_index(drop=True)
group['sess_item_id'] = sess_item_id

  • reset_index(drop=True) 重置数据框的索引,丢弃旧索引。
  • 将编码后的 sess_item_id 添加到数据框中。

3)提取节点特征

node_features = group.loc[group.session_id == session_id, ['sess_item_id', 'item_id']].item_id.drop_duplicates().values
node_features = torch.LongTensor(node_features).unsqueeze(1)
  • 选取会话中的 item_id 并去重。
  • 转换为 PyTorch 长整型张量并增加一个维度,以便与 PyTorch Geometric 的 x 匹配。
  • unsqueeze(1) 增加一个维度,使形状从 (num_items,) 变为 (num_items, 1)。这是因为每个 item_id 被视为一个节点特征,且每个节点只有一个特征。
  • 增加的维度表示特征维度。现在,node_features 的形状符合 (num_nodes, num_features) 的格式,其中 num_nodes 是节点数量(即 item_id 的数量),num_features 是每个节点的特征数,这里是 1。
  • 为什么需要这个格式?
    • PyTorch Geometric 的 Data 类在初始化时需要特征矩阵 x 是形状为 (num_nodes, num_features) 的二维张量,即每个节点都应有一个特征向量。
    • 通过增加维度,保证了即使只有一个特征(如 item_id),数据形状仍然符合期望的格式,使其可以正常用于图神经网络的训练和推理。

4)定义边、特征矩阵和标签

target_nodes = group.sess_item_id.values[1:]
source_nodes = group.sess_item_id.values[:-1]
edge_index = torch.tensor([source_nodes, target_nodes], dtype=torch.long)
x = node_features
y = torch.FloatTensor([group.label.values[0]])
  • 提取目标节点:
    • values[1:] 从第二个元素开始,提取到最后一个元素,表示每个边的终止节点。
    • 例如,sess_item_id 是 [0, 1, 2, 3],则 target_nodes 是 [1, 2, 3]。
  • 提取源节点:
    • values[:-1] 从第一个元素开始,提取到倒数第二个元素,表示每个边的起始节点。
    • 例如,sess_item_id 是 [0, 1, 2, 3],则 source_nodes 是 [0, 1, 2]。
  • 构建边列表
    • torch.tensor 将列表转换为 PyTorch 张量。
    • [source_nodes, target_nodes] 创建一个二维列表,形状为 (2, num_edges),表示每条边的起始和终止节点。
  • 定义特征矩阵和标签
    • x 是节点特征矩阵,即每个节点的 item_id。
    • y 是标签,这里简单地取会话的第一个标签值。

5)创建图数据对象

data = Data(x=x, edge_index=edge_index, y=y)
data_list.append(data)
  • 使用 Data 类创建图数据对象,包含节点特征、边索引和标签。
  • 将创建的 Data 对象添加到 data_list 中。

4、合并数据对象并保存

data, slices = self.collate(data_list)
torch.save((data, slices), self.processed_paths[0])
print("Data processing complete and file saved.")
  • self.collate(data_list) 将所有 Data 对象合并成一个大图数据对象。
  • torch.save((data, slices), self.processed_paths[0]) 将合并后的数据对象保存到指定路径。

5、实例化

dataset = YooChooseBinaryDataset(root='data/')
  • root=‘data/’:指定数据集的根目录。所有与数据相关的文件(原始数据和处理后的数据)都会存储在这个目录下。

新建数据文件目录结构如下图所示:

在这里插入图片描述


总结

通过篇文章,我们实现了一个自定义数据集类 YooChooseBinaryDataset,并通过实例化这个类来创建数据集对象 dataset。这个对象加载并处理了 YooChoose 数据集,使得我们可以方便地进行后续的图神经网络模型训练和评估。

  • 43
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值