GNN模型输入数据处理方法

提示:参考上一篇文章:图神经网络GNN实践入门


前言

  • 本篇是基于torch_geometric对图神经网络的进一步实践,将真实数据集处理成模型需要的格式。
  • 可以将这种思想应用到处理自己的数据集上。

提示:以下是本篇文章正文内容,下面案例可供参考

一、数据集简介

  • 一个商品购买数据集
  • yoochoose-clicks:表示用户的浏览行为,其中一个session_id就表示一次登录都浏览了什么商品。
  • item-id:表示该用户所浏览的商品,其中yoochoose-buys描述了他最终是否会购买,相当于标签。
  • 数据集下载网址:https://www.kaggle.com/datasets/chadgostopp/recsys-challenge-2015

二、数据处理方法

1.引入库

代码如下(示例):

import os
import pandas as pd
from sklearn.preprocessing import LabelEncoder
import torch
from torch_geometric.data import InMemoryDataset, Data
from tqdm import tqdm
  • LabelEncoder:用于将分类变量(如‘item_id’)转换为数字编码。
  • torch 和 torch_geometric.data:用于处理和定义图数据结构。
  • tqdm:用于显示进度条。

2、数据集基本预处理

1)读取文件

from sklearn.preprocessing import LabelEncoder
import pandas as pd

df = pd.read_csv('yoochoose-clicks.dat', header=None)
df.columns = ['session_id', 'timestamp', 'item_id', 'category']

buy_df = pd.read_csv('yoochoose-buys.dat', header=None)
buy_df.columns = ['session_id', 'timestamp', 'item_id', 'price', 'quality']
#对‘item_id’列进行编码
item_encoder = LabelEncoder()
df['item_id'] = item_encoder.fit_transform(df.item_id)
#显示处理后的数据框前几行
df.head()
  • df 通常是 DataFrame 的缩写,表示一个数据框(DataFrame)对象。数据框是用于存储和操作二维数据表格的一种数据结构,类似于电子表格或数据库表格。df 通常是通过使用像 pandas 这样的库创建和操作的。
  • item_encoder.fit_transform(df.item_id): 对 df 数据框中的 item_id 列进行编码。fit_transform 方法首先拟合数据,然后对其进行转换,将 item_id 从原始的类别数据转换为数值数据。
  • df[‘item_id’] = …: 将编码后的 item_id 列重新赋值给 df 数据框中的 item_id 列。

2)随机抽取部分数据

import numpy as np
#数据有点多,选择一小部分来建模
sampled_session_id = np.random.choice(df.session_id.unique(), 100000, replace=False)
df = df.loc[df.session_id.isin(sampled_session_id)]
df.nunique()
  • df.session_id.unique(): 获取数据集中所有唯一的 session_id。
  • np.random.choice(…, 100000, replace=False): 从所有唯一的 session_id 中随机选择 100,000 个,不重复。
  • df.loc[df.session_id.isin(sampled_session_id)]: 过滤数据集,只保留随机选择的 session_id 对应的行。

3)添加标签列表

#创建‘label’列
df['label'] = df.session_id.isin(buy_df.session_id)
df.head()
  • df.session_id.isin(buy_df.session_id): 检查 df 中的每个 session_id 是否存在于 buy_df 的 session_id 列中。

3、用户行为图结构创建

  • 接下来我们制作数据集:
    • 把每个session_id都当做一个图,每个图具有多个点和标签
    • 其中每个图中的点就是其item_id,特征暂时用其id来表示,之后会继续完善。

代码如下:

class YooChooseBinaryDataset(InMemoryDataset):
    def __init__(self, root, transform=None, pre_transform=None):
        super(YooChooseBinaryDataset, self).__init__(root, transform, pre_transform)
        if os.path.exists(self.processed_paths[0]):
            self.data, self.slices = torch.load(self.processed_paths[0])
        else:
            print("Processed file not found. Processing dataset...")
            self.process()

  • init 方法:初始化数据集类。
  • root:数据集的根目录。
  • transform 和 pre_transform:数据变换方法(可选)。
  • 检查处理后的数据文件是否存在。如果存在,则加载数据,否则调用 process 方法处理数据。
 @property
    def processed_file_names(self):
        return ['yoochoose_click_binary_1M_sess.dataset']
  • processed_file_names:定义处理后的文件名列表。

1)数据处理方法

检查处理后的数据文件是否存在,如果存在则加载,否则处理数据。

data_list = []
 # 数据预处理:按‘session_id’分组
grouped = df.groupby('session_id')
#循环处理每个会话
for session_id, group in tqdm(grouped):
	#每个session_id数据处理的代码

2)重置索引

group = group.reset_index(drop=True)
group['sess_item_id'] = sess_item_id

  • reset_index(drop=True) 重置数据框的索引,丢弃旧索引。
  • 将编码后的 sess_item_id 添加到数据框中。

3)提取节点特征

node_features = group.loc[group.session_id == session_id, ['sess_item_id', 'item_id']].item_id.drop_duplicates().values
node_features = torch.LongTensor(node_features).unsqueeze(1)
  • 选取会话中的 item_id 并去重。
  • 转换为 PyTorch 长整型张量并增加一个维度,以便与 PyTorch Geometric 的 x 匹配。
  • unsqueeze(1) 增加一个维度,使形状从 (num_items,) 变为 (num_items, 1)。这是因为每个 item_id 被视为一个节点特征,且每个节点只有一个特征。
  • 增加的维度表示特征维度。现在,node_features 的形状符合 (num_nodes, num_features) 的格式,其中 num_nodes 是节点数量(即 item_id 的数量),num_features 是每个节点的特征数,这里是 1。
  • 为什么需要这个格式?
    • PyTorch Geometric 的 Data 类在初始化时需要特征矩阵 x 是形状为 (num_nodes, num_features) 的二维张量,即每个节点都应有一个特征向量。
    • 通过增加维度,保证了即使只有一个特征(如 item_id),数据形状仍然符合期望的格式,使其可以正常用于图神经网络的训练和推理。

4)定义边、特征矩阵和标签

target_nodes = group.sess_item_id.values[1:]
source_nodes = group.sess_item_id.values[:-1]
edge_index = torch.tensor([source_nodes, target_nodes], dtype=torch.long)
x = node_features
y = torch.FloatTensor([group.label.values[0]])
  • 提取目标节点:
    • values[1:] 从第二个元素开始,提取到最后一个元素,表示每个边的终止节点。
    • 例如,sess_item_id 是 [0, 1, 2, 3],则 target_nodes 是 [1, 2, 3]。
  • 提取源节点:
    • values[:-1] 从第一个元素开始,提取到倒数第二个元素,表示每个边的起始节点。
    • 例如,sess_item_id 是 [0, 1, 2, 3],则 source_nodes 是 [0, 1, 2]。
  • 构建边列表
    • torch.tensor 将列表转换为 PyTorch 张量。
    • [source_nodes, target_nodes] 创建一个二维列表,形状为 (2, num_edges),表示每条边的起始和终止节点。
  • 定义特征矩阵和标签
    • x 是节点特征矩阵,即每个节点的 item_id。
    • y 是标签,这里简单地取会话的第一个标签值。

5)创建图数据对象

data = Data(x=x, edge_index=edge_index, y=y)
data_list.append(data)
  • 使用 Data 类创建图数据对象,包含节点特征、边索引和标签。
  • 将创建的 Data 对象添加到 data_list 中。

4、合并数据对象并保存

data, slices = self.collate(data_list)
torch.save((data, slices), self.processed_paths[0])
print("Data processing complete and file saved.")
  • self.collate(data_list) 将所有 Data 对象合并成一个大图数据对象。
  • torch.save((data, slices), self.processed_paths[0]) 将合并后的数据对象保存到指定路径。

5、实例化

dataset = YooChooseBinaryDataset(root='data/')
  • root=‘data/’:指定数据集的根目录。所有与数据相关的文件(原始数据和处理后的数据)都会存储在这个目录下。

新建数据文件目录结构如下图所示:

在这里插入图片描述


总结

通过篇文章,我们实现了一个自定义数据集类 YooChooseBinaryDataset,并通过实例化这个类来创建数据集对象 dataset。这个对象加载并处理了 YooChoose 数据集,使得我们可以方便地进行后续的图神经网络模型训练和评估。

<think>好的,我现在要解决用户在IAR编译器中遇到的错误:“incomplete type is not allowed”。首先,我需要理解这个错误的含义和常见原因。根据我的知识库,这个错误常发生在代码中使用了未完全定义的类型,比如结构体或联合体声明了但未定义,或者前向声明了某个类型但没有提供完整的定义。 首先,我应该检查用户代码中是否有结构体或联合体的声明但没有定义的情况。比如,如果有一个结构体声明为`struct MyStruct;`,但没有后续的完整定义,那么在需要该结构体大小或成员的地方,编译器就会报这个错误。这时候,需要用户补全结构体的定义,包括成员变量。 其次,检查是否在头文件中只声明了类型而没有包含定义。例如,如果在头文件中使用前向声明,但在使用该类型的源文件中没有包含实际的定义头文件,这也会导致错误。此时,需要确保在使用类型的地方包含了正确的头文件,或者将前向声明替换为完整的定义。 另外,还要考虑typedef的问题。如果用户使用了typedef创建别名,但原始类型未完全定义,同样会引发错误。例如,`typedef struct MyStruct MyType;`之后,如果尝试使用MyType但MyStruct尚未定义,就会出错。需要确保在使用typedef之前,原始类型已经被完整定义。 此外,数组声明中的类型不完整也是一个常见原因。比如声明数组时,如果元素类型未完全定义,编译器无法确定数组的大小,导致错误。需要检查数组声明中的类型是否已经完整定义。 可能还有其他情况,比如在C和C++混合编程时,如果没有正确使用extern "C",或者在头文件中遗漏了必要的包含,也可能导致类型不完整。需要用户检查这些方面。 接下来,我需要将这些可能的原因整理成清晰的解决步骤,并给出具体的代码示例,帮助用户理解如何修改。同时,根据用户提供的引用内容,虽然引用[1]和引用[2]是关于其他错误的,但用户可能希望看到类似的结构,即分点说明解决方案,并引用相关资源。 最后,生成相关问题,帮助用户进一步了解可能相关的编译错误,比如类型未定义、前向声明问题等。这样用户可以有更全面的认识,预防其他类似错误的发生。</think>### IAR编译器错误'incomplete type is not allowed'解决方案 该错误表示代码中使用了**未完全定义的类型**,编译器无法确定其内存布局或成员信息。以下是具体原因及解决方法: #### 1. 结构体/联合体未定义完整 若声明了结构体但未定义成员,在实例化时会报错: ```c struct MyStruct; // 前向声明不完整 struct MyStruct var; // 错误:使用未完成类型 ``` **解决方案**:补全类型定义 ```c struct MyStruct { int id; char name[20]; }; ``` #### 2. 头文件包含缺失 当跨文件使用类型时,需确保定义可见: ```c // file.h struct Data; // 前向声明 // file.c struct Data { // 实际定义 int value; }; ``` **解决方案**:在使用该类型的文件中包含定义头文件 ```c #include "file.c" // 包含实际定义 ``` #### 3. typedef别名问题 使用typedef时原始类型必须完整: ```c typedef struct Node NodeT; // 前向声明 NodeT* ptr; // 允许指针声明 NodeT instance; // 错误:不完整类型 ``` **解决方案**:先完成类型定义再typedef ```c struct Node { int data; struct Node* next; }; typedef struct Node NodeT; ``` #### 4. 数组声明不完整 数组元素类型必须完全定义: ```c struct Element; struct Element arr[10]; // 错误:元素类型未定义 ``` **解决方案**: ```c struct Element { int type; float value; }; struct Element arr[10]; // 合法 ``` #### 调试建议 1. 在IAR工程中搜索错误行号定位问题代码 2. 使用Go to Definition功能追踪类型定义 3. 检查所有头文件包含链 4. 确认没有循环依赖的头文件 编译器需要知道类型的完整信息才能: - 计算sizeof大小 - 分配内存空间 - 访问成员变量 - 进行类型对齐 [^1]: 类似类型转换错误可参考浮点转整型的类型适配问题。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值