GNN模型输入数据处理方法

最新推荐文章于 2025-04-17 10:04:57 发布

蟹黄堡在逃员工

最新推荐文章于 2025-04-17 10:04:57 发布

阅读量2.8k

点赞数 43

分类专栏：深度学习笔记文章标签：深度学习 python 神经网络 pytorch

本文链接：https://blog.csdn.net/qq_43798150/article/details/139546067

版权

深度学习笔记专栏收录该内容

3 篇文章

订阅专栏

提示：参考上一篇文章：图神经网络GNN实践入门

文章目录

前言
一、数据集简介
二、数据处理方法
总结

前言

本篇是基于torch_geometric对图神经网络的进一步实践，将真实数据集处理成模型需要的格式。
可以将这种思想应用到处理自己的数据集上。

提示：以下是本篇文章正文内容，下面案例可供参考

一、数据集简介

一个商品购买数据集
yoochoose-clicks：表示用户的浏览行为，其中一个session_id就表示一次登录都浏览了什么商品。
item-id：表示该用户所浏览的商品，其中yoochoose-buys描述了他最终是否会购买，相当于标签。
数据集下载网址：https://www.kaggle.com/datasets/chadgostopp/recsys-challenge-2015

二、数据处理方法

1.引入库

代码如下（示例）：

import os
import pandas as pd
from sklearn.preprocessing import LabelEncoder
import torch
from torch_geometric.data import InMemoryDataset, Data
from tqdm import tqdm

LabelEncoder：用于将分类变量（如‘item_id’）转换为数字编码。
torch 和 torch_geometric.data：用于处理和定义图数据结构。
tqdm：用于显示进度条。

2、数据集基本预处理

1）读取文件

from sklearn.preprocessing import LabelEncoder
import pandas as pd

df = pd.read_csv('yoochoose-clicks.dat', header=None)
df.columns = ['session_id', 'timestamp', 'item_id', 'category']

buy_df = pd.read_csv('yoochoose-buys.dat', header=None)
buy_df.columns = ['session_id', 'timestamp', 'item_id', 'price', 'quality']
#对‘item_id’列进行编码
item_encoder = LabelEncoder()
df['item_id'] = item_encoder.fit_transform(df.item_id)
#显示处理后的数据框前几行
df.head()

df 通常是 DataFrame 的缩写，表示一个数据框（DataFrame）对象。数据框是用于存储和操作二维数据表格的一种数据结构，类似于电子表格或数据库表格。df 通常是通过使用像 pandas 这样的库创建和操作的。
item_encoder.fit_transform(df.item_id): 对 df 数据框中的 item_id 列进行编码。fit_transform 方法首先拟合数据，然后对其进行转换，将 item_id 从原始的类别数据转换为数值数据。
df[‘item_id’] = …: 将编码后的 item_id 列重新赋值给 df 数据框中的 item_id 列。

2）随机抽取部分数据

import numpy as np
#数据有点多，选择一小部分来建模
sampled_session_id = np.random.choice(df.session_id.unique(), 100000, replace=False)
df = df.loc[df.session_id.isin(sampled_session_id)]
df.nunique()

df.session_id.unique(): 获取数据集中所有唯一的 session_id。
np.random.choice(…, 100000, replace=False): 从所有唯一的 session_id 中随机选择 100,000 个，不重复。
df.loc[df.session_id.isin(sampled_session_id)]: 过滤数据集，只保留随机选择的 session_id 对应的行。

3）添加标签列表

#创建‘label’列
df['label'] = df.session_id.isin(buy_df.session_id)
df.head()

df.session_id.isin(buy_df.session_id): 检查 df 中的每个 session_id 是否存在于 buy_df 的 session_id 列中。

3、用户行为图结构创建

接下来我们制作数据集：
- 把每个session_id都当做一个图，每个图具有多个点和标签
- 其中每个图中的点就是其item_id，特征暂时用其id来表示，之后会继续完善。

代码如下：

class YooChooseBinaryDataset(InMemoryDataset):
    def __init__(self, root, transform=None, pre_transform=None):
        super(YooChooseBinaryDataset, self).__init__(root, transform, pre_transform)
        if os.path.exists(self.processed_paths[0]):
            self.data, self.slices = torch.load(self.processed_paths[0])
        else:
            print("Processed file not found. Processing dataset...")
            self.process()

init 方法：初始化数据集类。
root：数据集的根目录。
transform 和 pre_transform：数据变换方法（可选）。
检查处理后的数据文件是否存在。如果存在，则加载数据，否则调用 process 方法处理数据。

 @property
    def processed_file_names(self):
        return ['yoochoose_click_binary_1M_sess.dataset']

processed_file_names：定义处理后的文件名列表。

1）数据处理方法

检查处理后的数据文件是否存在，如果存在则加载，否则处理数据。

data_list = []
 # 数据预处理：按‘session_id’分组
grouped = df.groupby('session_id')
#循环处理每个会话
for session_id, group in tqdm(grouped):
	#每个session_id数据处理的代码

2）重置索引

group = group.reset_index(drop=True)
group['sess_item_id'] = sess_item_id

reset_index(drop=True) 重置数据框的索引，丢弃旧索引。
将编码后的 sess_item_id 添加到数据框中。

3）提取节点特征

node_features = group.loc[group.session_id == session_id, ['sess_item_id', 'item_id']].item_id.drop_duplicates().values
node_features = torch.LongTensor(node_features).unsqueeze(1)

选取会话中的 item_id 并去重。
转换为 PyTorch 长整型张量并增加一个维度，以便与 PyTorch Geometric 的 x 匹配。
unsqueeze(1) 增加一个维度，使形状从 (num_items,) 变为 (num_items, 1)。这是因为每个 item_id 被视为一个节点特征，且每个节点只有一个特征。
增加的维度表示特征维度。现在，node_features 的形状符合 (num_nodes, num_features) 的格式，其中 num_nodes 是节点数量（即 item_id 的数量），num_features 是每个节点的特征数，这里是 1。
为什么需要这个格式？
- PyTorch Geometric 的 Data 类在初始化时需要特征矩阵 x 是形状为 (num_nodes, num_features) 的二维张量，即每个节点都应有一个特征向量。
- 通过增加维度，保证了即使只有一个特征（如 item_id），数据形状仍然符合期望的格式，使其可以正常用于图神经网络的训练和推理。

4）定义边、特征矩阵和标签

target_nodes = group.sess_item_id.values[1:]
source_nodes = group.sess_item_id.values[:-1]
edge_index = torch.tensor([source_nodes, target_nodes], dtype=torch.long)
x = node_features
y = torch.FloatTensor([group.label.values[0]])

提取目标节点：
- values[1:] 从第二个元素开始，提取到最后一个元素，表示每个边的终止节点。
- 例如，sess_item_id 是 [0, 1, 2, 3]，则 target_nodes 是 [1, 2, 3]。
提取源节点：
- values[:-1] 从第一个元素开始，提取到倒数第二个元素，表示每个边的起始节点。
- 例如，sess_item_id 是 [0, 1, 2, 3]，则 source_nodes 是 [0, 1, 2]。
构建边列表
- torch.tensor 将列表转换为 PyTorch 张量。
- [source_nodes, target_nodes] 创建一个二维列表，形状为 (2, num_edges)，表示每条边的起始和终止节点。
定义特征矩阵和标签
- x 是节点特征矩阵，即每个节点的 item_id。
- y 是标签，这里简单地取会话的第一个标签值。

5）创建图数据对象

data = Data(x=x, edge_index=edge_index, y=y)
data_list.append(data)

使用 Data 类创建图数据对象，包含节点特征、边索引和标签。
将创建的 Data 对象添加到 data_list 中。

4、合并数据对象并保存

data, slices = self.collate(data_list)
torch.save((data, slices), self.processed_paths[0])
print("Data processing complete and file saved.")

self.collate(data_list) 将所有 Data 对象合并成一个大图数据对象。
torch.save((data, slices), self.processed_paths[0]) 将合并后的数据对象保存到指定路径。

5、实例化

dataset = YooChooseBinaryDataset(root='data/')

root=‘data/’：指定数据集的根目录。所有与数据相关的文件（原始数据和处理后的数据）都会存储在这个目录下。

新建数据文件目录结构如下图所示：

在这里插入图片描述

总结

通过篇文章，我们实现了一个自定义数据集类 YooChooseBinaryDataset，并通过实例化这个类来创建数据集对象 dataset。这个对象加载并处理了 YooChoose 数据集，使得我们可以方便地进行后续的图神经网络模型训练和评估。