- 博客(1)
- 资源 (2)
- 收藏
- 关注
原创 Spark大数据处理TB级别海量数据的Shuffle成本(草稿)
1:轻易不要shuffle,例如20万个小文件(文件大小100MB,spark一个文件一个分区)的想要进行缩减5-8万的分区轻易不要repartition,而是coalase 进行分区合并
2020-12-27 11:30:41 1005 1
天津大学周伟状态压缩论文
信息学发展势头迅猛,信息学奥赛的题目来源遍及各行各业,经常有一些在 实际应用中很有价值的问题被引入信息学并得到有效解决。然而有一些问题却被 认为很可能不存在有效的(多项式级的)算法,本文以对几个例题的剖析,简述状 态压缩思想及其应用。
2018-09-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人