使用的数据:
使用的数据是沈阳某天地铁站的数据,共一百万行左右,数据结构如下:
遇到的问题:
有一个步骤是需要按照属性a(card.id)和属性b(M5.in)分组,求属性c(duration)的最小值,我一开始的做法是直接分组,并求最小值,如下:
trade.metro.in.out <- inner_join(trade.metro.in, trade.metro.out, by = "card.id")
但使用这种方法,足足算了20分钟没有算出来,通过和同学讨论,发现可能是因为使用的数据列数太多导致排序过慢,所以就先把这三个属性取出来,在小数据集上进行分组,如下:
data_min <- trade.metro.in.out[, list(card.id, M5.in, duration)]
data_min <- data_min[, duration_min := min(duration), by = list(card.id, M5.in)]
发现猜想果然正确,使用这种办法瞬间就分好组了,分组结果:
然后在将分好组的数据与原数据合并便得到了想要的效果,代码如下:
trade.metro.in.out <- merge(trade.metro.in.out, data_min, all.x = TRUE, all.y = FALSE)
总结
在只针对于大数据中的几列数据操作时,如果速度太慢,应该把这几列取出来,在小数据集上操作,最后在进行合并,效果会很好。