博客专栏  >  架构设计   >  Spark入门简单学

Spark入门简单学

从Spark的安装到RDD,Spark SQL ,Spark Streaming,MLLIB等多个方面对Spark进行入门级别的介绍

关注
3 已关注
12篇博文
  • Spark 入门之一:CentOS 6.5 下Spark 1.4 的安装以及配置

    机器配置 集群全部使用VM虚拟机环境进行部署 主机名 角色 配置 centos01 NameNode,JournalNode,Maste...

    2015-11-07 20:32
    1686
  • Spark 入门之二:Spark RDD详解

    RDD是什么  RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在...

    2015-11-07 20:42
    1827
  • Spark 入门之四:Spark任务调度架构

    以Spark集群的方式运行 standlone 的运行:bin/spark-shell --master spark://hadoop1:7077 --executor-memory 3...

    2015-11-07 20:51
    698
  • Spark入门之五:SparkSQL的原理以及架构

    1、SparkSQL的发展历程 1.1 Hive and Shark SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运...

    2015-11-07 21:03
    1883
  • Spark入门之六:SparkSQL实战

    介绍 SparkSQL引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(Row)以及描述行对象中每列数据类型的Schema组成;SchemaRDD很象传统数据库中的表。...

    2015-11-07 21:07
    1508
  • Spark入门之七:了解SparkSQL运行计划及调优

    优化过程中常用到方法 查看查询的整个运行计划  scala>query.queryExecution 查看查询的Unresolved LogicalPlan  scala>query.que...

    2015-11-07 21:10
    1996
  • Spark入门之八:Spark Streaming 的原理以及应用场景介绍

    什么是Spark Streaming Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个...

    2015-11-10 17:38
    2445
  • Spark入门之九:机器学习简介

    机器学习概念 在维基百科上对机器学习提出以下几种定义: “ 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能 ” 。 “ 机器学习是对能通过...

    2015-11-17 17:28
    1115
  • Spark入门之十:聚类算法之kmeans的简介以及使用

    聚类算法 聚类,Cluster analysis,有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能的相似,簇与簇之间的 object尽可能的相异...

    2015-11-17 17:34
    4601
  • Spark 入门之十一:Spark数据处理常用的那几招

    最近看完了《Spark 大数据处理》一数,收益非浅,又结合平时工作中用到的一些开发实践,用Python实现了Spark编程过程中经常用到且比较基础的编程模型,拿出来与大家分享,如有不足还请补充。 《...

    2016-07-04 18:36
    6501
  • Spark 入门之十二:再看Spark中的调度策略(Standlone)

    资源调度是Spark中比较重要的内容,对调度的相关原理以及策略的了解对集群的运行以及优化都会有很大的帮助,资源调度的方式有多种,Local,Standlone,Yarn,Mesos等,本文只针对Sta...

    2016-09-20 14:44
    603
  • 基于Python的Spark Streaming+Kafka编程实践

    说明Spark Streaming的原理说明的文章很多,这里不做介绍。本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些优化说明 spark streaming:http://sp...

    2017-01-05 18:02
    2630
img博客搬家
img撰写博客
img专家申请
img意见反馈
img返回顶部