分割YooChoose数据集为YooChoose1/4、YooChoose1/64

该篇文章介绍了如何从庞大的YooChoose数据集中筛选出200万个独特的session_id,以减少训练集的数据量,提高模型验证效率。作者通过Pandas操作,读取CSV文件,提取并保存了包含特定session_id的新数据集。
摘要由CSDN通过智能技术生成

1️⃣目的:

        源YooChoose数据集十分庞大,有上千万级别的数据,在测试验证模型性能时加载起来十分费劲。

2️⃣脚本思路:

        使用数据集中session_id作为滤网对源数据进行过滤,过滤出2百万个不同的session_id作为训练集。

3️⃣具体步骤:

        (1)提取2M个不同的session_id 

        (2)使用这些session_id过滤原始数据

        (3)保存为新数据集

4️⃣代码及具体逻辑:

import pandas as pd

# 读取原始CSV文件
df = pd.read_csv('../Datasource/yoochoose-clicks.dat')
df.columns = ['session_id', 'timestamp', 'item_id', 'category']

# 确定前200万个唯一的 session_id
unique_sessions = df['session_id'].unique()[:2000000]

# 使用这些 session_id 过滤原始 DataFrame
top_2m_sessions = df[df['session_id'].isin(unique_sessions)]

# 保存提取的数据为新的dat文件,不包括列名
top_2m_sessions.to_csv('../Datasource/yoochoose-clicks_2M.dat', index=False, header=False)

5️⃣分割后效果

其他

        需要YooChoose数据集的可以私信或评论发。 

  • 9
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值