![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 85
lll狼lll
这个作者很懒,什么都没留下…
展开
-
spark Shuffle
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop MapR转载 2015-12-28 13:38:10 · 254 阅读 · 0 评论 -
Ubuntu14.04下基于MPICH2框架的集群搭建
1.所有计算机安装Ubuntu14.04系统,单双系统无所谓。2.计算机的命名要有所区别。3.每台计算机的用户名要相同,这点十分重要,否则配置ssh的时候会出现问题。4.为每台计算机配置静态ip: sudo gedit/etc/network/interfaces在文件中加入下列信息address 172.16.71.147#(IP地址)netmask原创 2015-08-25 10:45:06 · 430 阅读 · 0 评论 -
maven
1、打开maven配置文件(maven安装目录下的conf目录下的settings.xml文件)2、搜索mirrors关键字,如果注释说明的下方没有 节点,则建立mirrors节点,带mirrors节点的所有配置如下(复制下面的内容,粘贴到配置文件中即可): | Specifies a repository mirror site to use in转载 2015-08-25 14:23:27 · 287 阅读 · 0 评论 -
spark源码阅读2-Job的提交与运行
概要本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。下载spark binary 0.9.1安装scala安装sbt安装java启动spark-shell单机模式运行,即local模式local模式运行非常简单,只要运行以下命令即可,假设当前目录是$SPARK_H转载 2016-01-05 09:58:05 · 376 阅读 · 0 评论 -
spark源码阅读1
楔子源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读Matei Zaharia做的Spark论文是一个非常不错的选择。在阅读该论文的基础之上,再结合Spark作者在2012 Dev转载 2016-01-05 09:16:17 · 436 阅读 · 0 评论 -
spark源码阅读3-Task运行期之函数调用关系分析
概要本篇主要阐述在TaskRunner中执行的task其业务逻辑是如何被调用到的,另外试图讲清楚运行着的task其输入的数据从哪获取,处理的结果返回到哪里,如何返回。准备spark已经安装完毕spark运行在local mode或local-cluster modelocal-cluster modelocal-cluster模式也称为伪分布式,可以使用如下指令运行MA转载 2016-01-05 10:28:42 · 332 阅读 · 0 评论 -
scala 调用 c++
与java调用c/c++差不多。1.在scala文件中对将要调用的方法做本地声明,关键字为native。且只需要声明,而不需要具体实现。[plain] view plain copyprint?class MutiMatrix { //xM @native def vectorMutiMatrix(lx: Array[Doub转载 2016-04-06 15:09:35 · 2431 阅读 · 0 评论 -
IDEA快捷键
编辑类:Ctrl+Space基本代码实例(类、方法、变量)Ctrl + Shift + Space智能代码实例(根据需要的类型过滤方法和变量)Ctrl + Shift + Enter完整的声明(如有代码提示,自动获取第一个并在句尾加上分号结束。无提示,在此行下新增一行)转载 2016-03-28 10:55:37 · 461 阅读 · 0 评论 -
用spark训练深度神经网络
SparkNet: Training Deep Network in Spark这篇论文是 Berkeley 大学 Michael I. Jordan 组的 ICLR2016(under review) 的最新论文,有兴趣可以看看原文和源码:paper,github .训练深度神经网络是一个非常耗时的过程,比如用卷积神经网络去训练一个目标识别任务需要好几天来训练。因转载 2016-04-10 11:08:56 · 4678 阅读 · 1 评论