spark生态系统
文章平均质量分 58
yang1young
个人Github主页: https://github.com/yang1young
可能会有你感兴趣的哦 :)
展开
-
Apache Spark MLlib学习笔记(三)MLlib统计指标之关联/抽样/汇总
决策树利用树形结构进行分类和回归,构建树的指标有多种,其中一种就是方差。在介绍决策树类算法前,首先介绍一下Spark MLlib中基本的统计。Spark官方提供了summary statistics、correlations、stratified sampling、hypothesis testing、random data generation。即汇总统计、关联、分层抽样、假设检验、随机数据生成。原创 2015-04-03 15:25:12 · 3553 阅读 · 0 评论 -
Apache Spark MLlib学习笔记(五)MLlib决策树类算法源码解析 1
从这章开始分析spark MLlib的decision tree的源码实现。 首先看下官方给的java使用决策树的例子,路径是/home/yangqiao/codes/spark/examples/src/main/java/org/apache/spark/examples/mllib/JavaDecisionTree.java 为了方便,部分解析我将直接在代码上进行注释:public fin原创 2015-04-08 16:41:59 · 2320 阅读 · 0 评论 -
Apache Spark MLlib学习笔记(六)MLlib决策树类算法源码解析 2
上篇说道建立分类决策树模型调用了trainClassifier方法,这章分析trainClassifier方法相关内容 按照以下路径打开源码文件: /home/yangqiao/codes/spark/mllib/src/main/scala/org/apache/spark/mllib/tree/DecisionTree.scala 先重点分析DecisionTree.scala文件。 首原创 2015-04-08 18:24:06 · 2942 阅读 · 0 评论 -
Apache Spark MLlib学习笔记(七)MLlib决策树类算法源码解析 3
上篇已经分析到Spark MLlib库的决策树最终实现使用了random forrest的run方法,这篇将对run方法进行详细的剖析和解释。 上篇提到input先被转换成Metadata处理,因此首先看一下buildMetadata方法 可以看出DecisionTreeMetadata确定了叶子节点数在不同情况下的范围,将数据的属性分为了有序和无序两种情况。将二元分类和回归问题放在了一起考虑。原创 2015-04-10 20:57:54 · 1729 阅读 · 0 评论 -
IntelliJ 下Spark应用程序开发流程
今天使用了intellij开发了spark应用程序,特此记录一下流程。1、配置相关环境 安装好JDK、Scala、intellij、spark 等相关软件并配置好环境,具体方法 之前的博客里都有。2、下载spark-assembly-1.3.0-hadoop2.4.0.jar 这个是spark程序的依赖库文件,有两种方法生成,一种是直接从官网下载预编译好的spark安装包,解压后在lib下可以找原创 2015-04-14 10:59:42 · 854 阅读 · 0 评论 -
Apache Spark MLlib学习笔记(四)Intellij上部署Spark源码
从这篇开始,就正式开始进行源码分析,源码分析是一件工作量很大的工作,尤其是spark这样的大工程,因此一定要使用编辑器才能较好的理顺各个类的关系。看别人经验,都推荐使用intelliJ编辑器。在此也要介绍一下ubuntu系统下spark在intelliJ上的部署。 1,配置java和scala开发环境 spark依赖java和scala环境,因此要先安装JDK,具体方法可以参看以前的一篇博客。原创 2015-04-08 15:19:31 · 2667 阅读 · 0 评论 -
Apache Spark MLlib学习笔记(一)MLlib数据存储Vector/Matrix/LablePoint
MLlib支持单机local vectors 和 matrices以及分布式矩阵。其中local vectors 和 matrices是一种用于公共接口的简单数据结原创 2015-04-02 15:42:10 · 6302 阅读 · 0 评论 -
Apache Spark MLlib学习笔记(二)Spark RDD简介和基本操作
第二篇介绍一下Spark的基本数据抽象——RDD,RDD来自伯克利的一篇论文,也就是http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 下面就选取一些主要的特性进行介绍:一、什么是RDD RDD(Resilient Distributed Datasets)即弹性分布式数据集,RDD提供了一种高度受限的共享内存模型,即RDD是原创 2015-04-03 11:57:26 · 1790 阅读 · 0 评论