最近学习大数据,突然想到一个问题,hadoop/spark 和GPU什么关系。为什么有的问题要并行计算,交给GPU处理,有的交给分布式hadoop处理。
偶然间看到一条知乎,受到点启发,觉得应该是这样的:
首先有两种情况:数据密集型、计算密集型
数据密集型:数量大,但是对每一条数据的处理并不一定麻烦,比如,对1T的文件统计字数,可以交给10台机器分别统计。
计算密集型:数量并不一定大,但是对每条数据的计算量非常大,比如》》》图像。
但是计算密集型的能不能交给分布式去做,暂时还没想太透
,先放在这。