分布式计算_free_lock的博客-CSDN博客

分布式计算

关注

文章平均质量分 82

关注数：文章数：6 文章阅读量：8001 文章收藏量：2

作者: free_lock

La vie ce n'est pas d'attendre que les orages passent... C'est d'apprendre comment danser sous la pluie.

展开

分布式计算学习先验知识

What are some good resources for learning about distributed computing? Why?PrerequisitesUnix shell basics C OS basics Unix Programming http://www.kohala.com/start/ Networking Basics Network

转载 2015-09-27 22:37:29 · 395 阅读 · 0 评论
RPC（译）

本文内容是关于Remote Procedure Calls的一篇overview。什么是RPCRPC提供了一套强大的机制用来构建分布式的、基于客户端-服务器架构的应用。它对传统的本地过程调用进行扩展，这样被调用端不需要与调用段的过程存在于同一个地址空间。通过使用RPC，写分布式系统的程序员们可以避免网络接口的实现细节。RPC的传输独立性(transport independence)将应用

翻译 2015-10-01 17:50:31 · 1331 阅读 · 0 评论
为什么要超越Hadoop（书摘）

弈者举棋不定，不胜其耦。——左传⋅\cdot襄公应用场景Hadoop并不适用所有类型的应用程序: 如果数据分片是互相关联的，或者需要进行跨数据分片的计算，就很难有效运行在Hadoop上。比如说，想象下你有多支股票，这些股票在不同时间点有不同的价格，现在需要计算这些股票间的关联度，比如你想预测某只股票什么时候会下跌（虽然在国内不靠谱，但是我还是容易想到AR模型），如果不同块中存储了不同的股票，

原创 2016-01-29 23:23:19 · 484 阅读 · 0 评论
（转）史上最全的Spark综合帖

从博主个人收藏的角度而言，应该是放到印象笔记里一个连接就可以了。不过考虑到本文实在总结的很好，所以就不辞辛苦搬过来收藏了。感谢数据联盟网站博主的归纳整理,感谢小林子： http://dataunion.org/2824.html什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce

转载 2016-01-30 00:21:19 · 434 阅读 · 0 评论
spark下线性模型 spark.mllib

我还是参考官方的文档来写这个部分，顺便梳理下原理，给出对应代码及运行结果，一点也不复杂。数学公式许多的机器学习的算法实际上可以被写成凸优化的问题，比如说寻找凸函数ff的极小值，它取决于权重向量ｗ，那么我们可以将优化目标函数写成：这里xi∈Rdx_i \in R^d是训练数据，yi∈Ry_i \in R是它们对应的标签，线性方法可以表示成L(w;x,y)L(w;x,y)，有几类mllib中的分

翻译 2016-02-16 16:29:56 · 3219 阅读 · 0 评论
spark1.6.0+Hadoop2.6.0+Scala-2.11.7 搭建分布式集群

昨天又捣鼓了一下，网上有些写得很不错的教程，自己经过尝试后觉得需要整理一下。 spark的运行模式有多种(见官网和Spark的Standalone模式安装部署):local(本地模式)：常用于本地开发测试，本地还分为local单线程和local-cluster多线程;standalone(集群模式)：典型的Mater/slave模式，不过也能看出Master是有单点故障的；Spark支持Zoo

原创 2016-04-09 14:47:08 · 2138 阅读 · 0 评论

分布式计算

作者: free_lock

分布式计算学习先验知识

RPC（译）

为什么要超越Hadoop（书摘）

（转）史上最全的Spark综合帖

spark下线性模型 spark.mllib

spark1.6.0+Hadoop2.6.0+Scala-2.11.7 搭建分布式集群