R语言data.table分组求最小值速度太慢

使用的数据:

使用的数据是沈阳某天地铁站的数据,共一百万行左右,数据结构如下:
数据结构

遇到的问题:

有一个步骤是需要按照属性a(card.id)和属性b(M5.in)分组,求属性c(duration)的最小值,我一开始的做法是直接分组,并求最小值,如下:

trade.metro.in.out <- inner_join(trade.metro.in, trade.metro.out, by = "card.id")

但使用这种方法,足足算了20分钟没有算出来,通过和同学讨论,发现可能是因为使用的数据列数太多导致排序过慢,所以就先把这三个属性取出来,在小数据集上进行分组,如下:

data_min <- trade.metro.in.out[, list(card.id, M5.in, duration)]
data_min <- data_min[, duration_min := min(duration), by = list(card.id, M5.in)]

发现猜想果然正确,使用这种办法瞬间就分好组了,分组结果:
分组结果
然后在将分好组的数据与原数据合并便得到了想要的效果,代码如下:

trade.metro.in.out <- merge(trade.metro.in.out, data_min, all.x = TRUE, all.y = FALSE)

总结

在只针对于大数据中的几列数据操作时,如果速度太慢,应该把这几列取出来,在小数据集上操作,最后在进行合并,效果会很好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值