开源夏令营
文章平均质量分 65
Fluid开源社区
这个作者很懒,什么都没留下…
展开
-
Spark上矩阵运算库(二)—— 矩阵相乘测试
目前已经完成了密集矩阵原创 2014-07-20 22:24:13 · 2547 阅读 · 0 评论 -
Spark上矩阵运算库(三)代码重构与优化
迁往MLlib的API Spark的MLlib库中提供了分布式矩阵的API,本着不重复造轮子的原则,目前项目将代码重构使用MLlib提供的矩阵API,这些API都在org.apache.spark.mllib.linalg.distributed 包内,Spark的官方文档有一个简单的相关介绍:http://spark.apache.org/docs/latest/mllib-basics.ht原创 2014-07-28 01:07:07 · 2155 阅读 · 0 评论 -
Spark上矩阵运算库(四)基本API搭建完毕
重写MLlib矩阵相关API 上周工作时所用到的矩阵相关API,均是extends MLlib中相关分布式矩阵API,但是很快便遇到了问题,由于我需要重写原先IndexedRow的toString方法,所以写了一个类IndexRow extends IndexedRow,由于MLlib中IndexedRowMatrix是对IndexedRow的RDD封装,即RDD[IndexedRow],我们自原创 2014-08-03 01:32:51 · 4543 阅读 · 1 评论 -
Spark上矩阵运算库(一)—— 矩阵相乘
从HAMA 0.1版的"黑历史"开始 HAMA是Apache基金会下的一个顶级开源项目,属于Hadoop生态圈中的一个重要项目。根据HAMA项目主页上的简介,HAMA项目的目的是提供“a general BSP framework on top of Hadoop”。因此HAMA项目的目标现在主要围绕着BSP框架展开。 但是HAMA项目在早期的目标远比此要宏大,其目的有些类似于Spark项目中原创 2014-07-13 17:11:12 · 8107 阅读 · 0 评论 -
Spark上矩阵运算库 ——中期检查报告
项目从开始准备工作到如今已经接近一个月的时间,这次的中期检查报告回顾一下这一个月内的工作进展,并对未来的进一步工作做一个规划 前期工作总结 1.开发环境搭建 Spark用scala语言进行开发,而Spark本身目前推荐使用YARN作为底层环境,所以我们从最开始三个节点的Spark 1.0.0 on Hadoop1 迁移到现在18个节点的Spark 1.0.1 on YARN,程序原创 2014-08-07 12:42:35 · 2399 阅读 · 0 评论 -
Spark上矩阵运算库 终期检查报告
从7月份开始着手到如今9月份撰写解题报告,两个月的时间如白驹过隙。这两个月里,我主要对Spark运行机制,RDD设计思想,BLAS等底层运算库以及Scala函数式编程有了一个更深层次更全面的认识和熟悉,感谢实验室的诸位在算法设计上、底层环境系统调度、代码风格修改上提供的帮助,感谢Intel中国研究院的尹绪森老师的指导帮助,最后感谢CSDN提供的这次宝贵实习机会,使得我有机会对于Spark,对于开源原创 2014-09-07 22:51:48 · 2321 阅读 · 0 评论 -
Spark上矩阵运算库(六)——高级矩阵操作2
矩阵运算的应用基于基础的矩阵运算(矩阵、向量的乘、加等),我们可以实现一些更高级的应用,来演示并行矩阵运算库的功能和效果。上周时间,我调研并且找到了用Matlab语言实现的如下两个基础应用:Logistic RegressionK-MeansLU、QR矩阵分解Logistic RegressionLogistic Regression是广义线性回归模型的代表,在回归问题中具原创 2014-08-25 10:58:11 · 2782 阅读 · 0 评论 -
Spark上矩阵运算库(五)——高级矩阵操作1
工作回顾前面我们已经基于Spark设计并实现了常见的分布式矩阵操作,主要包括BLAS1-2的操作,如矩阵相加、相减、相乘等。接下来的一阶段,我们的工作分类两部分。第一,继续完善基本操作,比如支持一些向量的操作;第二,实现1、2个高级矩阵操作,如矩阵的分解等等。高级矩阵操作原创 2014-08-17 20:33:38 · 3230 阅读 · 0 评论 -
Spark上矩阵运算库(七)--LU矩阵分解实现和Spark 1.1的SVD剖析
上文介绍了一些高级矩阵操作,本周的内容就是来实现其中的LU分解,在实现的思路上参照了尚未正式release的Spark 1.1中分布式SVD奇异值分解的内容,所以先来介绍Spark 1.1中分布式SVD Spark 1.0.x 版本的SVD分解 目前已经release的1.0.x版本的Spark中,计算一个分布式矩阵的SVD,需要将其转换成本地breeze的DenseMatrix,然后调用sv原创 2014-08-31 23:32:06 · 3746 阅读 · 2 评论