Fluid开源社区-CSDN博客

原创 Tachyon简介

Tachyon是以内存为中心的分布式文件系统，拥有高性能和容错能力，能够为集群框架（如Spark、MapReduce）提供可靠的内存级速度的文件共享服务。从软件栈的层次来看，Tachyon是位于现有大数据计算框架和大数据存储系统之间的独立的一层。它利用底层文件系统作为备份，对于上层应用来说，Tachyon就是一个分布式文件系统。本文讲述了Tachyon的重要概念、使用方法以及基本原理。

2014-12-08 22:14:51 12167 6

原创 Tachyon源码结构分析（四）

在上一篇《Tachyon源码结构分析（三）》中，我们分析了Master模块的源码结构，本篇接着介绍Worker模块的源码结构分析。

2015-03-31 12:09:00 1543

原创 Tachyon源码结构分析（三）

在上一篇《Tachyon源码结构分析（二）》中，我们具体分析了Common模块和Client模块的源码结构，本篇接着上一篇内容介绍Master模块的源码结构分析。

2015-03-24 00:31:51 1791

原创 Tachyon源码结构分析（二）

在上一篇《Tachyon源码结构分析（一）》中，我们介绍了Tachyon的四大模块（Client模块、Master模块、Worker模块以及Common模块）的基本功能及其相互关系。从本篇开始我们开始介绍各个模块的具体功能实现以及各个模块的源码结构。本篇接下来主要对Common模块以及Client模块进行源码结构分析。

2015-03-16 21:15:13 3078 1

原创 Tachyon源码结构分析（一）

在上一篇博客中，我们介绍了Tachyon的安装、配置和使用，用户已经对Tachyon有了初步的了解。从本篇开始，我们将对Tachyon的源码结构进行分析，让用户进一步更深入的了解Tachyon的工作机制。由于源码分析的内容比较多，我们将分成多篇来详细阐述。本篇主要对Tachyon源码的Common模块与Client模块进行源码结构分析

2015-03-09 21:00:36 2681

原创 Tachyon的安装、配置和使用

0. 前言在上一篇博文《Tachyon简介》中，我们简要地介绍了Tachyon，一个以内存为中心的分布式文件系统，及其一些基本工作原理。这一次，我们重点介绍如何在你自己的单机或集群环境下去安装、配置和使用Tachyon。具体地，会从怎样编译源码开始，到各项配置、命令的说明，再加上API的使用举例，让大家能够一步步地把Tachyon用起来。

2014-12-29 14:34:43 4802 6

从7月份开始着手到如今9月份撰写解题报告，两个月的时间如白驹过隙。这两个月里，我主要对Spark运行机制，RDD设计思想，BLAS等底层运算库以及Scala函数式编程有了一个更深层次更全面的认识和熟悉，感谢实验室的诸位在算法设计上、底层环境系统调度、代码风格修改上提供的帮助，感谢Intel中国研究院的尹绪森老师的指导帮助，最后感谢CSDN提供的这次宝贵实习机会，使得我有机会对于Spark，对于开源

2014-09-07 22:51:48 2288

原创 Spark上矩阵运算库(七)--LU矩阵分解实现和Spark 1.1的SVD剖析

上文介绍了一些高级矩阵操作，本周的内容就是来实现其中的LU分解，在实现的思路上参照了尚未正式release的Spark 1.1中分布式SVD奇异值分解的内容，所以先来介绍Spark 1.1中分布式SVD Spark 1.0.x 版本的SVD分解目前已经release的1.0.x版本的Spark中，计算一个分布式矩阵的SVD，需要将其转换成本地breeze的DenseMatrix，然后调用sv

2014-08-31 23:32:06 3710 2

原创 Spark上矩阵运算库(六)——高级矩阵操作2

矩阵运算的应用基于基础的矩阵运算（矩阵、向量的乘、加等），我们可以实现一些更高级的应用，来演示并行矩阵运算库的功能和效果。上周时间，我调研并且找到了用Matlab语言实现的如下两个基础应用：Logistic RegressionK-MeansLU、QR矩阵分解Logistic RegressionLogistic Regression是广义线性回归模型的代表，在回归问题中具

2014-08-25 10:58:11 2742

原创 Spark上矩阵运算库(五)——高级矩阵操作1

工作回顾前面我们已经基于Spark设计并实现了常见的分布式矩阵操作，主要包括BLAS1-2的操作，如矩阵相加、相减、相乘等。接下来的一阶段，我们的工作分类两部分。第一，继续完善基本操作，比如支持一些向量的操作；第二，实现1、2个高级矩阵操作，如矩阵的分解等等。高级矩阵操作

2014-08-17 20:33:38 3193

原创 Spark上矩阵运算库 ——中期检查报告

项目从开始准备工作到如今已经接近一个月的时间，这次的中期检查报告回顾一下这一个月内的工作进展，并对未来的进一步工作做一个规划前期工作总结 1.开发环境搭建 Spark用scala语言进行开发，而Spark本身目前推荐使用YARN作为底层环境，所以我们从最开始三个节点的Spark 1.0.0 on Hadoop1 迁移到现在18个节点的Spark 1.0.1 on YARN，程序

2014-08-07 12:42:35 2372

原创 Spark上矩阵运算库（四）基本API搭建完毕

重写MLlib矩阵相关API 上周工作时所用到的矩阵相关API，均是extends MLlib中相关分布式矩阵API，但是很快便遇到了问题，由于我需要重写原先IndexedRow的toString方法，所以写了一个类IndexRow extends IndexedRow，由于MLlib中IndexedRowMatrix是对IndexedRow的RDD封装，即RDD[IndexedRow]，我们自

2014-08-03 01:32:51 4494 1

原创 Spark上矩阵运算库（三）代码重构与优化

迁往MLlib的API Spark的MLlib库中提供了分布式矩阵的API，本着不重复造轮子的原则，目前项目将代码重构使用MLlib提供的矩阵API，这些API都在org.apache.spark.mllib.linalg.distributed 包内，Spark的官方文档有一个简单的相关介绍：http://spark.apache.org/docs/latest/mllib-basics.ht

2014-07-28 01:07:07 2136

原创 Spark上矩阵运算库（二）—— 矩阵相乘测试

目前已经完成了密集矩阵

2014-07-20 22:24:13 2525

原创 Spark上矩阵运算库（一）—— 矩阵相乘

从HAMA 0.1版的"黑历史"开始 HAMA是Apache基金会下的一个顶级开源项目，属于Hadoop生态圈中的一个重要项目。根据HAMA项目主页上的简介，HAMA项目的目的是提供“a general BSP framework on top of Hadoop”。因此HAMA项目的目标现在主要围绕着BSP框架展开。但是HAMA项目在早期的目标远比此要宏大，其目的有些类似于Spark项目中

2014-07-13 17:11:12 8051

南京大学PASA大数据实验室专栏