- 博客(1)
- 收藏
- 关注
原创 在Spark上进行两个大数据集的匹配
分布式框架Spark把任务划分到各个子节点进行处理,可以有效利用小机器的CPU来处理大规模数据集。但是Spark也存在局限性,在某些问题的处理上会力不从心,例如两个大数据集的匹配。出现这种问题的原因主要是分布式系统的优势在于机器的数量,子节点的CPU和内存通常配置较低。问题描述:如果有两个大数据集A和B,假设A有几千万条数据,B有几百万条数据,需要把B中的每一条数据和A中的每一条数据进行比较。下面
2017-07-09 22:59:52 7344 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人