Spark上矩阵运算库 ——中期检查报告

本项目回顾了一个月来Spark矩阵运算库的开发工作,包括开发环境搭建、矩阵参考实现及性能测试。团队参照MLlib实现了IndexRow和IndexMatrix,使用Breeze提升运算速度。性能测试显示,矩阵乘法在调用底层BLAS后,时间从26min降低到4min,但Spark程序仍未能有效利用底层库,导致stage6耗时较长。未来计划优化算法,实现调用本地BLAS和MKL,以及与HBase的集成。
摘要由CSDN通过智能技术生成

 

项目从开始准备工作到如今已经接近一个月的时间,这次的中期检查报告回顾一下这一个月内的工作进展,并对未来的进一步工作做一个规划


前期工作总结

 

1.开发环境搭建

Spark用scala语言进行开发,而Spark本身目前推荐使用YARN作为底层环境,所以我们从最开始三个节点的Spark 1.0.0 on Hadoop1 迁移到现在18个节点的Spark 1.0.1 on YARN,程序的开发IDE一直都是Intellij IDEA Community 13.1,运行环境见下

image

一次开发工作流程如下:在IDE中修改编写程序,保存之后,进入shell,执行sbt assembly命令,对于assembly的大体积jar包,用官方所提倡的spark-submit命令提交,提交运行命令如下:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值