提示:参考上一篇文章:图神经网络GNN实践入门
文章目录
前言
- 本篇是基于torch_geometric对图神经网络的进一步实践,将真实数据集处理成模型需要的格式。
- 可以将这种思想应用到处理自己的数据集上。
提示:以下是本篇文章正文内容,下面案例可供参考
一、数据集简介
- 一个商品购买数据集
- yoochoose-clicks:表示用户的浏览行为,其中一个session_id就表示一次登录都浏览了什么商品。
- item-id:表示该用户所浏览的商品,其中yoochoose-buys描述了他最终是否会购买,相当于标签。
- 数据集下载网址:https://www.kaggle.com/datasets/chadgostopp/recsys-challenge-2015
二、数据处理方法
1.引入库
代码如下(示例):
import os
import pandas as pd
from sklearn.preprocessing import LabelEncoder
import torch
from torch_geometric.data import InMemoryDataset, Data
from tqdm import tqdm
- LabelEncoder:用于将分类变量(如‘item_id’)转换为数字编码。
- torch 和 torch_geometric.data:用于处理和定义图数据结构。
- tqdm:用于显示进度条。
2、数据集基本预处理
1)读取文件
from sklearn.preprocessing import LabelEncoder
import pandas as pd
df = pd.read_csv('yoochoose-clicks.dat', header=None)
df.columns = ['session_id', 'timestamp', 'item_id', 'category']
buy_df = pd.read_csv('yoochoose-buys.dat', header=None)
buy_df.columns = ['session_id', 'timestamp', 'item_id', 'price', 'quality']
#对‘item_id’列进行编码
item_encoder = LabelEncoder()
df['item_id'] = item_encoder.fit_transform(df.item_id)
#显示处理后的数据框前几行
df.head()
- df 通常是 DataFrame 的缩写,表示一个数据框(DataFrame)对象。数据框是用于存储和操作二维数据表格的一种数据结构,类似于电子表格或数据库表格。df 通常是通过使用像 pandas 这样的库创建和操作的。
- item_encoder.fit_transform(df.item_id): 对 df 数据框中的 item_id 列进行编码。fit_transform 方法首先拟合数据,然后对其进行转换,将 item_id 从原始的类别数据转换为数值数据。
- df[‘item_id’] = …: 将编码后的 item_id 列重新赋值给 df 数据框中的 item_id 列。
2)随机抽取部分数据
import numpy as np
#数据有点多,选择一小部分来建模
sampled_session_id = np.random.choice(df.session_id.unique(), 100000, replace=False)
df = df.loc[df.session_id.isin(sampled_session_id)]
df.nunique()
- df.session_id.unique(): 获取数据集中所有唯一的 session_id。
- np.random.choice(…, 100000, replace=False): 从所有唯一的 session_id 中随机选择 100,000 个,不重复。
- df.loc[df.session_id.isin(sampled_session_id)]: 过滤数据集,只保留随机选择的 session_id 对应的行。
3)添加标签列表
#创建‘label’列
df['label'] = df.session_id.isin(buy_df.session_id)
df.head()
- df.session_id.isin(buy_df.session_id): 检查 df 中的每个 session_id 是否存在于 buy_df 的 session_id 列中。
3、用户行为图结构创建
- 接下来我们制作数据集:
- 把每个session_id都当做一个图,每个图具有多个点和标签
- 其中每个图中的点就是其item_id,特征暂时用其id来表示,之后会继续完善。
代码如下:
class YooChooseBinaryDataset(InMemoryDataset):
def __init__(self, root, transform=None, pre_transform=None):
super(YooChooseBinaryDataset, self).__init__(root, transform, pre_transform)
if os.path.exists(self.processed_paths[0]):
self.data, self.slices = torch.load(self.processed_paths[0])
else:
print("Processed file not found. Processing dataset...")
self.process()
- init 方法:初始化数据集类。
- root:数据集的根目录。
- transform 和 pre_transform:数据变换方法(可选)。
- 检查处理后的数据文件是否存在。如果存在,则加载数据,否则调用 process 方法处理数据。
@property
def processed_file_names(self):
return ['yoochoose_click_binary_1M_sess.dataset']
- processed_file_names:定义处理后的文件名列表。
1)数据处理方法
检查处理后的数据文件是否存在,如果存在则加载,否则处理数据。
data_list = []
# 数据预处理:按‘session_id’分组
grouped = df.groupby('session_id')
#循环处理每个会话
for session_id, group in tqdm(grouped):
#每个session_id数据处理的代码
2)重置索引
group = group.reset_index(drop=True)
group['sess_item_id'] = sess_item_id
- reset_index(drop=True) 重置数据框的索引,丢弃旧索引。
- 将编码后的 sess_item_id 添加到数据框中。
3)提取节点特征
node_features = group.loc[group.session_id == session_id, ['sess_item_id', 'item_id']].item_id.drop_duplicates().values
node_features = torch.LongTensor(node_features).unsqueeze(1)
- 选取会话中的 item_id 并去重。
- 转换为 PyTorch 长整型张量并增加一个维度,以便与 PyTorch Geometric 的 x 匹配。
- unsqueeze(1) 增加一个维度,使形状从 (num_items,) 变为 (num_items, 1)。这是因为每个 item_id 被视为一个节点特征,且每个节点只有一个特征。
- 增加的维度表示特征维度。现在,node_features 的形状符合 (num_nodes, num_features) 的格式,其中 num_nodes 是节点数量(即 item_id 的数量),num_features 是每个节点的特征数,这里是 1。
- 为什么需要这个格式?
- PyTorch Geometric 的 Data 类在初始化时需要特征矩阵 x 是形状为 (num_nodes, num_features) 的二维张量,即每个节点都应有一个特征向量。
- 通过增加维度,保证了即使只有一个特征(如 item_id),数据形状仍然符合期望的格式,使其可以正常用于图神经网络的训练和推理。
4)定义边、特征矩阵和标签
target_nodes = group.sess_item_id.values[1:]
source_nodes = group.sess_item_id.values[:-1]
edge_index = torch.tensor([source_nodes, target_nodes], dtype=torch.long)
x = node_features
y = torch.FloatTensor([group.label.values[0]])
- 提取目标节点:
- values[1:] 从第二个元素开始,提取到最后一个元素,表示每个边的终止节点。
- 例如,sess_item_id 是 [0, 1, 2, 3],则 target_nodes 是 [1, 2, 3]。
- 提取源节点:
- values[:-1] 从第一个元素开始,提取到倒数第二个元素,表示每个边的起始节点。
- 例如,sess_item_id 是 [0, 1, 2, 3],则 source_nodes 是 [0, 1, 2]。
- 构建边列表
- torch.tensor 将列表转换为 PyTorch 张量。
- [source_nodes, target_nodes] 创建一个二维列表,形状为 (2, num_edges),表示每条边的起始和终止节点。
- 定义特征矩阵和标签
- x 是节点特征矩阵,即每个节点的 item_id。
- y 是标签,这里简单地取会话的第一个标签值。
5)创建图数据对象
data = Data(x=x, edge_index=edge_index, y=y)
data_list.append(data)
- 使用 Data 类创建图数据对象,包含节点特征、边索引和标签。
- 将创建的 Data 对象添加到 data_list 中。
4、合并数据对象并保存
data, slices = self.collate(data_list)
torch.save((data, slices), self.processed_paths[0])
print("Data processing complete and file saved.")
- self.collate(data_list) 将所有 Data 对象合并成一个大图数据对象。
- torch.save((data, slices), self.processed_paths[0]) 将合并后的数据对象保存到指定路径。
5、实例化
dataset = YooChooseBinaryDataset(root='data/')
- root=‘data/’:指定数据集的根目录。所有与数据相关的文件(原始数据和处理后的数据)都会存储在这个目录下。
新建数据文件目录结构如下图所示:
总结
通过篇文章,我们实现了一个自定义数据集类 YooChooseBinaryDataset,并通过实例化这个类来创建数据集对象 dataset。这个对象加载并处理了 YooChoose 数据集,使得我们可以方便地进行后续的图神经网络模型训练和评估。