Spark2.0机器学习系列之11: 聚类(幂迭代聚类, power iteration clustering, PIC)

在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法:             (1)K-means             (2)Latent Dirichlet allocation (LDA)             (3)Bisecting k-means(二分...

2018-05-30 17:47:17

阅读数:55

评论数:0

SparkML之回归(三)保序回归

在写這篇博客的时候,翻阅了一些互联网上的资料,发现文献[1]写的比较系统。所以推荐大家读读文献[1].但是出现了一些错误,所以我在此简述一些。如果推理不过去了。可以看看我的简述。 ------------------------------------前言 背景: (...

2017-11-20 15:22:30

阅读数:233

评论数:0

【Spark2.0源码学习】-9.Job提交与Task的拆分

在前面的章节Client的加载中,Spark的DriverRunner已开始执行用户任务类(比如:org.apache.spark.examples.SparkPi),下面我们开始针对于用户任务类(或者任务代码)进行分析   一、整体预览           基于上篇图做了扩展,增加任务执行...

2017-11-11 15:59:40

阅读数:159

评论数:0

Spark SQL利器:cacheTable/uncacheTable

Spark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。   假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的代码如下:   ...

2017-11-10 10:13:50

阅读数:105

评论数:0

Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战

【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor; l驱动程序(...

2017-11-10 10:11:30

阅读数:86

评论数:0

spark性能优化:数据倾斜调优

调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。 数据倾斜发生时的现象   1、绝大多数task执行得都非常快,但个别...

2017-10-26 11:50:04

阅读数:71

评论数:0

用 LDA 做主题模型:当 MLlib 邂逅 GraphX

主题模型可以从一系列文章中自动推测讨论的主题。这些主题可以被用作总结和整理文章,也可以在机器学习流程的后期阶段用于特征化和降维。 在Spark 1.3中,MLlib现在支持最成功的主题模型之一,隐含狄利克雷分布(LDA)。LDA也是基于GraphX上构建的第一个MLlib算法。在这篇博文中,...

2017-05-10 10:44:11

阅读数:168

评论数:0

Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战

1、MLlib实例 1.1 聚类实例 1.1.1 算法说明 聚类(Cluster analysis)有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能相似,簇与簇之间的object尽可能相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重...

2017-04-15 23:05:52

阅读数:313

评论数:0

Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

1、机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 l“机器学习是对能通过经验自动改进的计算机算法的研究”。 l“机器学习是用数据或以往的经验,以此优化计...

2017-04-15 23:02:16

阅读数:261

评论数:0

Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍

1、Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP socket...

2017-04-15 22:54:32

阅读数:232

评论数:0

Spark入门实战系列--6.SparkSQL(下)--Spark实战应用

【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取 1 运行环境说明 1.1 硬软件环境 主机操作系统:Windows 64位,双核4线程,主频2.2G,10G内存虚拟软件:VMware® Workstation 9.0.0 build-81...

2017-04-15 19:04:21

阅读数:473

评论数:0

Spark入门实战系列--6.SparkSQL(中)--深入了解运行计划及调优

1 使用Hive-Console 了解运行计划 前面介绍了SparkSQL的运行过程,罗列了很多概念很抽象,比如Unresolved LogicPlan、LogicPlan、PhysicalPlan,下面介绍一个工具hive/console,来加深对SparkSQL的运行计划的理解。  【注】以...

2017-04-15 18:59:21

阅读数:274

评论数:0

Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介

1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大...

2017-04-15 18:49:06

阅读数:248

评论数:0

Spark函数详解系列之RDD基本转换

摘要: RDD:弹性分布式数据集,是一种特殊集合‚ 支持多种来源‚ 有容错机制‚ 可以被缓存‚ 支持并行操作,一个RDD代表一个分区里的数据集 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RD...

2017-04-08 20:31:44

阅读数:162

评论数:0

那些年我们对Spark RDD的理解

http://blog.csdn.net/stark_summer/article/details/50218641。 目录(?)[+] 这篇文章想从Spark当初设计时为何提出RDD概念,相对于Hadoop,RDD真的能给spark带来何等优势。之前本想开...

2017-04-08 19:18:46

阅读数:395

评论数:0

Spark RDD概念学习系列之RDD的5大特点

http://www.cnblogs.com/zlslch/category/924363.html  RDD的5大特点        1)有一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算。   一组分片(partition),即数据集的基本...

2017-04-08 19:06:37

阅读数:1155

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭