大数据系统-系统优化与算法优化方向

    大数据系统面临的问题一般是有以下几个问题造成的:

  1.     数据分布变化产生新的挑战。
  2.     计算环境为分布式集群。

    针对系统执行过程中的作业,参考开源系统与研究论文可以看到大家比较关注的一些优化方向:


1. 存储层:

列存储和文件排布:Major Technical Advancements in Apache Hive

压缩:Choosing a Data Compression Format (Cloudera)

Column Order:

2. 作业调度层:

考虑Locality,Straggler,Capacity,Fair等问题演化出的不同作业调度算法。

Delay Scheduling: A Simple Technique for Achieving Locality and Fairness in Cluster Scheduling

3. 执行过程

借鉴编译优化和数据库查询优化技术进行作业优化。

Apache Spark Join guidelines and Performance tuning

4. 开掘硬件性能

Project Tungsten: Bringing Apache Spark Closer to Bare Metal




评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值