spark
Quincy1994
这个作者很懒,什么都没留下…
展开
-
在ubuntu中使用java版的spark
前言我在使用java版的spark之前,在ubuntu上安装了python版的spark.换而言之,我已经搭建好了spark的相关环境,例如scala,hadoop等.具体的可以查看我师弟的博客哈 http://www.cnblogs.com/adienhsuan/p/5654484.html 里面也有提供一些关于pyspark的使用,我主要讲述的是如何使用java的spark.安装eclips原创 2016-08-25 18:28:20 · 1717 阅读 · 0 评论 -
利用java的spark做高斯混合模型聚类
高斯混合模型 高斯混合模型(Gaussian Mixture Model), 简称为GMM,是一个基于概率密度的模型。在这种模型中,数据点是由K个正态分布所生成的,每个正态分布都拥有自己的均值和协方差矩阵,而来自每个高斯分布的数据点的比例有先验r决定。与k-means聚类最大的不同在,k-means的结果是每个数据点都分布到唯一的cluster中,而GMM则给出这些数据点被分配到每个cluste原创 2017-02-06 16:52:48 · 2667 阅读 · 0 评论 -
利用spark做文本聚类分析
import java.util.Arrays;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.ap原创 2017-02-07 14:52:28 · 7195 阅读 · 1 评论 -
利用spark的mllib构建GBDT模型
GBDT模型GBDT模型的介绍,我主要是参考博客:http://blog.csdn.net/w28971023/article/details/8240756 在这里,我主要归纳以下几点要素: 1.GBDT中的树都是回归树; 2.回归树节点分割点衡量最好的标准是叶子个数的上限; 3.GBDT的核心在于,每个棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得到真实值的累加量;原创 2017-05-02 11:40:58 · 2058 阅读 · 0 评论 -
关于spark的mllib学习总结(Java版)
本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据,具体的流程如下图所示: 加载数据对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper methods to load,save and pre-process data used in MLLib.博客中的数据是采用spark中提供的数据sample_libsvm_data.txt,其有一百个数据原创 2017-04-23 23:20:54 · 11837 阅读 · 5 评论 -
利用Java的Spark做单词统计并排序
import java.util.ArrayList;import java.util.Arrays;import java.util.Collections;import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Comparator;import org.apache.s转载 2017-07-21 11:22:24 · 1182 阅读 · 1 评论