2016年03月_拱头

原创 Spark中的矩阵乘法源码分析

矩阵乘法在数据挖掘/机器学习中是常用的计算步骤，并且在大数据计算中，shuffle过程是不可避免的，矩阵乘法的不同计算方式shuffle的数据量都不相同。通过对矩阵乘法不同计算方式的深入学习，希望能够对大数据算法实现的shuffle过程优化有所启发。网上有很多分布式矩阵乘法相关的文章和论文，但是鲜有对Spark中分布式矩阵乘法的分析。本文针对Spark中分布式矩阵乘法的实现进行必要的说明讨论。

2016-03-27 01:53:15 6887 1

原创 spark partitioner使用技巧

spark partitioner使用技巧以下源码分析基于Spark-1.5.2在Spark的PairRDDFunctions,OrderedRDDFunctions这两个类中,都会用到RDD的partitioner信息.具体使用到的partitioner的方法如下:combineByKeyaggregateByKeygroupByKeyreduceByKeycog

2016-03-22 15:05:25 21311

原创将本地jar添加进本地仓库

例如将本地使用spark-assembly-1.4.1-hadoop2.3.0.jar 的添加到maven仓库:mvn install:install-file -DgroupId=local.spark -DartifactId=spark-assembly -Dversion=1.4.1-hadoop2.3.0 -Dpackaging=jar -Dfile=/usr/local/spark

2016-03-22 15:35:08 718

原创 maven混合编译java&scala

步骤：1. mvn 生成scala项目mvn archetype:generate \-DarchetypeGroupId=org.scala-tools.archetypes \-DarchetypeArtifactId=scala-archetype-simple \-DremoteRepositories=http://scala-tools.org/repo-rel

2016-03-22 15:33:33 6091

原创 maven插件

插件网站:http://maven.apache.org/plugins/最好的学习方法是直接上官网看插件文档maven-assembly-plugin插件文档地址: http://maven.apache.org/plugins/maven-assembly-plugin/usage.html参考博文: http://blog.csdn.net/cdl

2016-03-22 15:30:18 1474

原创 maven安装配置

maven安装配置安装配置1.官网下载maven，解压到某个路径。2.配置环境变量MAVEN_HOME=安装路径。3.在环境变量path中加入%MAVEN_HOME%/bin或$MAVEN_HOME/binmaven修改本地仓库地址1.创建一个maven的本地路径，例如：F:\j

2016-03-22 15:25:40 533

转载 maven pom.xml详解

转自：http://blog.csdn.net/sunzhenhua0608/article/details/32938533pom作为项目对象模型。通过xml表示maven项目，使用pom.xml来实现。主要描述了项目：包括配置文件；开发者需要遵循的规则，缺陷管理系统，组织和licenses，项目的url，项目的依赖性，以及其他所有的项目相关因素。[xml] view plainco

2016-03-22 15:22:35 345

转载 Maven2的配置文件settings.xml

Maven2的配置文件settings.xml简介：概览当Maven运行过程中的各种配置，例如pom.xml，不想绑定到一个固定的project或者要分配给用户时，我们使用settings.xml中的settings元素来确定这些配置。这包含了本地仓库位置，远程仓库服务器以及认证信息等。settings.xml存在于两个地方：1.安装的地方：$M2_HOME/conf/se

2016-03-22 15:21:08 406

原创 SBT

常用命令clean删除所有生成的文件（在 target 目录下）。compile编译源文件（在 src/main/scala 和 src/main/java 目录下）。test编译和运行所有测试。console进入到一个包含所有编译的文件和所有依赖的 classpath 的 Scala 解析器。输入:quit， Ct

2016-03-22 15:18:50 1643

原创 Spark源码笔记

以下内容源于spark1.4.1以上版本一.Spark可执行文件笔记：1.spark-shell:1.1 bin/spark-class 启动了org.apache.spark.launcher.Main，这个Main函数用来启动Master，Worker以及SparkSubmit等,start-master.sh/start-slaves.sh/spark-submit都调用

2016-03-22 15:16:56 946

原创 Spark远程调试IDE调试

1、JVM里面设置以下参数（在spark-env.sh中添加系统变量SPARK_JAVA_OPTS）export SPARK_JAVA_OPTS=" -agentlib:jdwp=transport=dt_socket,server=y,suspend=y,address=8888"这里对上面的几个参数进行说明：-agen

2016-03-22 15:11:18 2037

原创 Spark日志研究

Spark日志分三部分:1.Client日志:就是我们spark-submit一个Application的时候在屏幕上可以看到的日志,Spark的一行日志能够看出是哪个类输出的日志,这有助于理解每个类在哪个机器上执行.Client日志最重要的还是记录了SparkContext启动过程的初始化过程.如下图,前面红框表示类.2.Master日志,Master日志主要记录

2016-03-22 15:09:56 805

原创 Spark参数有效配置

Spark参数配置有三种方式:1.在编写代码的时候,通过创建SparkConf的时候,使用set方法配置.2.动态加载:在使用spark-submit提交代码上集群的时候,通过spark-submit的参数进行配置,可以通过spark-submit --help指令查看能够配置的参数.3.通过spark-default.conf配置文件配置.如果配置的参数能够同时在这三

2016-03-22 15:07:21 3503

原创 spark shuffle

功能上看Spark的存储管理模型可以分为两部分:RDD缓存和Shuffle数据的持久化.RDD缓存,指的是RDD调用cache(),persist()或checkpoint,调用这个三个方法会将RDD对应的数据块结果存储到内存或者磁盘中,可以将窄依赖的结果存储下来.Shuffle数据持久化,在一个Application中,可能会经过多次Shuffle过程,Shuffle的中间数据块是会被保

2016-03-22 14:49:40 1796 1

原创 Hbase Filter Scala 实战

大部分内容来自,示例代码部分都用scala编写介绍:hbase的filter用来控制返回的数据,主要用在Get和Scan中,通过filter的限制可以指定返回列簇,列,时间戳和版本号.所有的filter都在服务端生效,叫做谓词下推.这样可以保证被过滤掉的数据不会被传送客户端.在过滤层次结构的最底层是Filter接口和FilterBase抽象类,用户可以通过集成Filter和Filter

2016-03-22 14:45:08 4534

原创 HBASE安装配置

1.伪分布（首先确定启动了hadoop）mkdir /usr/local/hbasetar -zxvf hbase-1.0.1.1-bin.tar.gz -C /usr/local/hbase/cd /usr/local/hbase/hbase-1.0.1.1/#添加JAVA_HOMEvim conf/hbase-env.shexport JAVA_HOME=/usr/li

2016-03-22 14:43:23 1208

拱头的专栏