分布式计算
文章平均质量分 82
free_lock
La vie ce n'est pas d'attendre que les orages passent... C'est d'apprendre comment danser sous la pluie.
展开
-
分布式计算学习先验知识
What are some good resources for learning about distributed computing? Why?PrerequisitesUnix shell basics C OS basics Unix Programming http://www.kohala.com/start/ Networking Basics Network转载 2015-09-27 22:37:29 · 395 阅读 · 0 评论 -
RPC(译)
本文内容是关于Remote Procedure Calls的一篇overview。什么是RPCRPC提供了一套强大的机制用来构建分布式的、基于客户端-服务器架构的应用。它对传统的本地过程调用进行扩展,这样被调用端不需要与调用段的过程存在于同一个地址空间。通过使用RPC,写分布式系统的程序员们可以避免网络接口的实现细节。RPC的传输独立性(transport independence)将应用翻译 2015-10-01 17:50:31 · 1331 阅读 · 0 评论 -
为什么要超越Hadoop(书摘)
弈者举棋不定,不胜其耦。——左传⋅\cdot襄公应用场景Hadoop并不适用所有类型的应用程序: 如果数据分片是互相关联的,或者需要进行跨数据分片的计算,就很难有效运行在Hadoop上。 比如说,想象下你有多支股票,这些股票在不同时间点有不同的价格,现在需要计算这些股票间的关联度,比如你想预测某只股票什么时候会下跌(虽然在国内不靠谱,但是我还是容易想到AR模型),如果不同块中存储了不同的股票,原创 2016-01-29 23:23:19 · 484 阅读 · 0 评论 -
(转)史上最全的Spark综合帖
从博主个人收藏的角度而言,应该是放到印象笔记里一个连接就可以了。 不过考虑到本文实在总结的很好,所以就不辞辛苦搬过来收藏了。 感谢数据联盟网站博主的归纳整理,感谢小林子: http://dataunion.org/2824.html什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce转载 2016-01-30 00:21:19 · 434 阅读 · 0 评论 -
spark下线性模型 spark.mllib
我还是参考官方的文档来写这个部分,顺便梳理下原理,给出对应代码及运行结果,一点也不复杂。数学公式许多的机器学习的算法实际上可以被写成凸优化的问题,比如说寻找凸函数ff的极小值,它取决于权重向量w,那么我们可以将优化目标函数写成: 这里xi∈Rdx_i \in R^d是训练数据,yi∈Ry_i \in R是它们对应的标签,线性方法可以表示成L(w;x,y)L(w;x,y),有几类mllib中的分翻译 2016-02-16 16:29:56 · 3219 阅读 · 0 评论 -
spark1.6.0+Hadoop2.6.0+Scala-2.11.7 搭建分布式集群
昨天又捣鼓了一下,网上有些写得很不错的教程,自己经过尝试后觉得需要整理一下。 spark的运行模式有多种(见官网和Spark的Standalone模式安装部署):local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程;standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持Zoo原创 2016-04-09 14:47:08 · 2138 阅读 · 0 评论