Spark入门简单学
文章平均质量分 86
从Spark的安装到RDD,Spark SQL ,Spark Streaming,MLLIB等多个方面对Spark进行入门级别的介绍
铁猴
热爱Java,热爱大数据,热爱技术!
展开
-
Spark 入门之一:CentOS 6.5 下Spark 1.4 的安装以及配置
机器配置集群全部使用VM虚拟机环境进行部署主机名角色配置centos01NameNode,JournalNode,Master,ResourceManager,QuorumPeerMain2G,1核,20Gcentos02Worker,NodeManager,DataNode,Q原创 2015-11-07 20:32:34 · 2598 阅读 · 0 评论 -
Spark 入门之二:Spark RDD详解
RDD是什么 RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 为什么会产生RDD传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操转载 2015-11-07 20:42:50 · 4227 阅读 · 2 评论 -
Spark 入门之四:Spark任务调度架构
以Spark集群的方式运行standlone 的运行:bin/spark-shell --master spark://hadoop1:7077 --executor-memory 3g运行在Yarn上yarn-client的运行:bin/spark-shell --master yarn-client --executor-memory 3g --num-ex原创 2015-11-07 20:51:36 · 1355 阅读 · 0 评论 -
Spark入门之五:SparkSQL的原理以及架构
1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效转载 2015-11-07 21:03:47 · 7852 阅读 · 0 评论 -
Spark入门之六:SparkSQL实战
介绍SparkSQL引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(Row)以及描述行对象中每列数据类型的Schema组成;SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTa原创 2015-11-07 21:07:31 · 3460 阅读 · 0 评论 -
Spark入门之七:了解SparkSQL运行计划及调优
优化过程中常用到方法查看查询的整个运行计划 scala>query.queryExecution 查看查询的Unresolved LogicalPlan scala>query.queryExecution.logical查看查询的Analyzed LogicalPlanscala>query.queryExecution.analyzed查看优化后的LogicalPlan转载 2015-11-07 21:10:48 · 6899 阅读 · 0 评论 -
Spark入门之八:Spark Streaming 的原理以及应用场景介绍
什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用 Spark的高度抽象原语如:map、re原创 2015-11-10 17:38:08 · 9404 阅读 · 0 评论 -
Spark入门之九:机器学习简介
机器学习概念在维基百科上对机器学习提出以下几种定义:“ 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能 ” 。“ 机器学习是对能通过经验自动改进的计算机算法的研究 ” 。“ 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。 ” 一种经常引用的英文定义是: A computer program转载 2015-11-17 17:28:01 · 2828 阅读 · 0 评论 -
Spark入门之十:聚类算法之kmeans的简介以及使用
聚类算法聚类,Cluster analysis,有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能的相似,簇与簇之间的 object尽可能的相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,较常见的还有:层次 法(CURE、CHAMELEON等)、网格算法(STING、WaveClust转载 2015-11-17 17:34:20 · 6906 阅读 · 0 评论 -
Spark 入门之十一:Spark数据处理常用的那几招
最近看完了《Spark 大数据处理》一数,收益非浅,又结合平时工作中用到的一些开发实践,用Python实现了Spark编程过程中经常用到且比较基础的编程模型,拿出来与大家分享,如有不足还请补充。《Spark 大数据处理》 一书中也有相关的例子,但是是用Scala实现的,个人觉得还是Python API的语法还是更加简洁清晰,所以选择了用Python来实现,语言都是浮云,主要还是看思路,由于篇幅原创 2016-07-04 18:36:19 · 11794 阅读 · 0 评论 -
Spark 入门之十二:再看Spark中的调度策略(Standlone)
资源调度是Spark中比较重要的内容,对调度的相关原理以及策略的了解对集群的运行以及优化都会有很大的帮助,资源调度的方式有多种,Local,Standlone,Yarn,Mesos等,本文只针对Standlone的方式做简介几个重要的概念开始文章之前,再次对几个核心的概念做一个总结被调用对象Application:Spark 的应用程序,用户提交后,Spark为App分配资源,将程序转换并执行,其原创 2016-09-20 14:44:47 · 2834 阅读 · 0 评论 -
基于Python的Spark Streaming+Kafka编程实践
说明Spark Streaming的原理说明的文章很多,这里不做介绍。本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些优化说明 spark streaming:http://spark.apache.org/docs/1.6.0/streaming-programming-guide.html streaming-kafka-integration:http://sp原创 2017-01-05 18:02:10 · 21579 阅读 · 3 评论