分割YooChoose数据集为YooChoose1/4、YooChoose1/64

GarsonW

已于 2024-08-10 13:01:25 修改

阅读量775

点赞数 9

文章标签：深度学习人工智能算法机器学习 python

于 2023-12-03 16:45:56 首次发布

本文链接：https://blog.csdn.net/m0_56190554/article/details/134766735

版权

该篇文章介绍了如何从庞大的YooChoose数据集中筛选出200万个独特的session_id，以减少训练集的数据量，提高模型验证效率。作者通过Pandas操作，读取CSV文件，提取并保存了包含特定session_id的新数据集。

摘要由CSDN通过智能技术生成

1️⃣目的：

源YooChoose数据集十分庞大，有上千万级别的数据，在测试验证模型性能时加载起来十分费劲。

2️⃣脚本思路：

使用数据集中session_id作为滤网对源数据进行过滤，过滤出2百万个不同的session_id作为训练集。

3️⃣具体步骤：

（1）提取2M个不同的session_id

（2）使用这些session_id过滤原始数据

（3）保存为新数据集

4️⃣代码及具体逻辑：

import pandas as pd

# 读取原始CSV文件
df = pd.read_csv('../Datasource/yoochoose-clicks.dat')
df.columns = ['session_id', 'timestamp', 'item_id', 'category']

# 确定前200万个唯一的 session_id
unique_sessions = df['session_id'].unique()[:2000000]

# 使用这些 session_id 过滤原始 DataFrame
top_2m_sessions = df[df['session_id'].isin(unique_sessions)]

# 保存提取的数据为新的dat文件，不包括列名
top_2m_sessions.to_csv('../Datasource/yoochoose-clicks_2M.dat', index=False, header=False)

5️⃣分割后效果

其他

需要YooChoose数据集的可以私信或评论发。

GarsonW

关注

9
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
分割YooChoose数据集为YooChoose1/4、YooChoose1/64

使用数据集中session_id作为滤网对源数据进行过滤，过滤出2百万个不同的session_id作为训练集。源YooChoose数据集十分庞大，有上千万级别的数据，在测试验证模型性能时加载起来十分费劲。需要YooChoose数据集的可以私信或评论发。（2）使用这些session_id过滤原始数据。（1）提取2M个不同的session_id。（3）保存为新数据集。
复制链接

扫一扫