关于动态图数据集中有重复的边导致采样错误

LL的AI学习成长经历

于 2023-11-05 11:47:00 发布

阅读量66

点赞数

文章标签： python 人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41179293/article/details/134228298

版权

前几天换了个数据集，一跑，居然出现了bug。bug的问题主要是因为数据内容中的ts长度与eid对不上，然鹅我有需要mask，就导致匹配不上。
一开始在模型里进行了过滤，但是对比的时候得保证数据集是一样的，这给过滤了，不就和另一个不一样了吗。
今天仔细对bug部分进行了剖析，居然发现数据集有好些边同一时刻多次出现，这就是出现bug的原因。

然后对数据进行了简单的处理，去重

# 读取CSV文件
df = pd.read_csv('your_data.csv')
# 删除同一时刻出现的多条重复边，只保留最先出现的一条
df.drop_duplicates(subset=['src', 'dst', 'time'], keep='first', inplace=True)
# 保存处理后的数据到新的CSV文件
df.to_csv('filtered_data.csv', index=False)

这边用了pandas的drop_duplicates函数是Pandas库中用于删除数据框（DataFrame）中重复行的函数。它的主要作用是根据指定的列或条件，删除数据框中的重复行，只保留其中的一行或一组。
drop_duplicates函数的一些重要参数包括：
subset：指定用于判断重复的列或列的组合。默认为所有列。你可以传递一个列名或列名的列表，以指定用于判断重复的列。
keep：指定保留哪个重复行。可选值有：
‘first’（默认）：保留第一个出现的重复行，删除后续的重复行。
‘last’：保留最后一个出现的重复行，删除前面的重复行。
False：删除所有重复行，不保留任何。

完美解决

LL的AI学习成长经历

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于动态图数据集中有重复的边导致采样错误

这边用了pandas的drop_duplicates函数是Pandas库中用于删除数据框（DataFrame）中重复行的函数。它的主要作用是根据指定的列或条件，删除数据框中的重复行，只保留其中的一行或一组。你可以传递一个列名或列名的列表，以指定用于判断重复的列。一开始在模型里进行了过滤，但是对比的时候得保证数据集是一样的，这给过滤了，不就和另一个不一样了吗。‘first’（默认）：保留第一个出现的重复行，删除后续的重复行。‘last’：保留最后一个出现的重复行，删除前面的重复行。
复制链接

扫一扫

LL的AI学习成长经历 CSDN认证博客专家 CSDN认证企业博客

码龄7年

17: 原创

52万+: 周排名

7万+: 总排名

2万+: 访问

: 等级

356: 积分

11: 粉丝

36: 获赞

9: 评论

52: 收藏

私信

关注

热门文章

分类专栏

bug记录 4篇
Python 4篇
C语言 4篇

最新评论

SureFact:Reinforcement Subgraph Reasoning for Fake News Detection（面向假新闻检测的强化子图推理）
qq_54968043: 我也是，我非常想要
linux上多cuda切换
CSDN-Ada助手: 推荐 CS入门技能树：https://edu.csdn.net/skill/gml?utm_source=AI_act_gml
SureFact:Reinforcement Subgraph Reasoning for Fake News Detection（面向假新闻检测的强化子图推理）
m0_48548711: 作者您好，我对这篇论文的研究方向很感兴趣，希望能够深入了解一下这篇论文，想要一下这篇论文的源代码，你看方便共享一下吗？我看论文里的github库过期了，谢谢
out of cuda memory
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题“out of cuda memory”非常引人注目。持续创作是提升自己的最佳方式，您的努力值得赞赏。关于下一步的创作建议，我谨虚心地建议您考虑探索一些CUDA内存管理的技巧。这可以帮助您更好地理解和解决“out of cuda memory”问题，为读者提供更多解决方案。希望您能够继续保持写作的热情，并不断挑战自己，让读者们从您的博客中受益匪浅。期待您的下一篇作品！
VaDE中的 AttributeError: ‘Tensor‘ object has no attribute ‘broadcastable‘
CSDN-Ada助手: 恭喜您写了第12篇博客！标题中提到的 AttributeError 问题可能是一个小小的挑战，但我相信您一定能够解决它的。持续创作博客是非常值得赞赏的，您的努力和热情都能够感受到。在下一步的创作中，也许您可以考虑分享一些关于如何克服类似错误的经验，或者是对 VaDE 的其他有趣特性的探索。期待您的下一篇博客！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。