Spark
文章平均质量分 83
铁猴
热爱Java,热爱大数据,热爱技术!
展开
-
Spark 入门之一:CentOS 6.5 下Spark 1.4 的安装以及配置
机器配置集群全部使用VM虚拟机环境进行部署主机名角色配置centos01NameNode,JournalNode,Master,ResourceManager,QuorumPeerMain2G,1核,20Gcentos02Worker,NodeManager,DataNode,Q原创 2015-11-07 20:32:34 · 2588 阅读 · 0 评论 -
Spark 入门之十二:再看Spark中的调度策略(Standlone)
资源调度是Spark中比较重要的内容,对调度的相关原理以及策略的了解对集群的运行以及优化都会有很大的帮助,资源调度的方式有多种,Local,Standlone,Yarn,Mesos等,本文只针对Standlone的方式做简介几个重要的概念开始文章之前,再次对几个核心的概念做一个总结被调用对象Application:Spark 的应用程序,用户提交后,Spark为App分配资源,将程序转换并执行,其原创 2016-09-20 14:44:47 · 2819 阅读 · 0 评论 -
基于Zookeeper的Spark HA配置说明
默认情况下在Spark standalone集群中进行计算时,由于是RDD的计算模型,所以可以认为worker 已经是有HA特性的了,但是负责资源调度的Master节点有可能出现单点故障。所以为了保证环境的稳定,还是需要配置HA功能。官方文档中提供了两种HA的机制 基于Zookeeper:利用ZooKeeper来提供主节点选举和集群状态的存储,可以在集群中运行多个连接到同一个Zoo原创 2016-08-24 17:22:47 · 4706 阅读 · 1 评论 -
Spark 入门之十一:Spark数据处理常用的那几招
最近看完了《Spark 大数据处理》一数,收益非浅,又结合平时工作中用到的一些开发实践,用Python实现了Spark编程过程中经常用到且比较基础的编程模型,拿出来与大家分享,如有不足还请补充。《Spark 大数据处理》 一书中也有相关的例子,但是是用Scala实现的,个人觉得还是Python API的语法还是更加简洁清晰,所以选择了用Python来实现,语言都是浮云,主要还是看思路,由于篇幅原创 2016-07-04 18:36:19 · 11770 阅读 · 0 评论 -
Spark RDD 的Transformation与Action的常用功能总结(Python版本)
本文主要演示如何通过Python对Spark的RDD进行编程,只列出了一些常用的RDD操作接口,完整的功能,请参考官方文档演示环境说明RDD的详细介绍请参考:http://blog.csdn.net/eric_sunah/article/details/49705145操作系统:Ubuntu 12.04部署环境:1.6单机版演示环境:pyspark测试语言:Py原创 2016-04-01 16:26:29 · 3004 阅读 · 0 评论 -
Spark入门之十:聚类算法之kmeans的简介以及使用
聚类算法聚类,Cluster analysis,有时也被翻译为簇类,其核心任务是:将一组目标object划分为若干个簇,每个簇之间的object尽可能的相似,簇与簇之间的 object尽可能的相异。聚类算法是机器学习(或者说是数据挖掘更合适)中重要的一部分,除了最为简单的K-Means聚类算法外,较常见的还有:层次 法(CURE、CHAMELEON等)、网格算法(STING、WaveClust转载 2015-11-17 17:34:20 · 6892 阅读 · 0 评论 -
Spark入门之九:机器学习简介
机器学习概念在维基百科上对机器学习提出以下几种定义:“ 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能 ” 。“ 机器学习是对能通过经验自动改进的计算机算法的研究 ” 。“ 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。 ” 一种经常引用的英文定义是: A computer program转载 2015-11-17 17:28:01 · 2812 阅读 · 0 评论 -
Spark入门之八:Spark Streaming 的原理以及应用场景介绍
什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用 Spark的高度抽象原语如:map、re原创 2015-11-10 17:38:08 · 9391 阅读 · 0 评论 -
Hive入门学习之三:Hive客户端的连接
在Hive入门学习之二:Hive 的部署中讲述了如何搭建一个Hive的环境,本文主要讲解基于metastore启动多个client的方法要求说明centos01中已经配置好了hive环境,需要在该机器上启动metastore服务,接下来需要在centos02,centos03中启动客户端具体步骤拷贝centos01的hive环境到centos02,centos03scp -r原创 2015-11-08 11:41:24 · 6206 阅读 · 1 评论 -
Hive入门学习之二:Hive 的部署
本文主要介绍Hive 的远程安装模式(如果Hive客户端比较多,在每个客户端都安装MySQL服务还是会造成一定的冗余和浪费,这种情况下,就可以更进一步,将MySQL也独立出来,将元数据保存在远端独立的MySQL服务中)版本介绍JDK:1.7.0_55Hadoop:2.6.0Hive:1.2.1具体步骤配置好一个外部的Mysql,并创建hive的database: creat原创 2015-11-08 11:35:54 · 1280 阅读 · 0 评论 -
Hive入门学习之一:Hive的简述与架构
Hive架构与基本组成 下面是Hive的架构图。图1.1 Hive体系结构 Hive的体系结构可以分为以下几部分: (1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至Hive Server。在启动 Client模式转载 2015-11-08 11:31:01 · 4371 阅读 · 0 评论 -
Spark 入门之二:Spark RDD详解
RDD是什么 RDD:Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用。 为什么会产生RDD传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操转载 2015-11-07 20:42:50 · 4214 阅读 · 2 评论 -
Spark入门之六:SparkSQL实战
介绍SparkSQL引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(Row)以及描述行对象中每列数据类型的Schema组成;SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTa原创 2015-11-07 21:07:31 · 3446 阅读 · 0 评论 -
Spark入门之七:了解SparkSQL运行计划及调优
优化过程中常用到方法查看查询的整个运行计划 scala>query.queryExecution 查看查询的Unresolved LogicalPlan scala>query.queryExecution.logical查看查询的Analyzed LogicalPlanscala>query.queryExecution.analyzed查看优化后的LogicalPlan转载 2015-11-07 21:10:48 · 6885 阅读 · 0 评论 -
Spark 入门之四:Spark任务调度架构
以Spark集群的方式运行standlone 的运行:bin/spark-shell --master spark://hadoop1:7077 --executor-memory 3g运行在Yarn上yarn-client的运行:bin/spark-shell --master yarn-client --executor-memory 3g --num-ex原创 2015-11-07 20:51:36 · 1347 阅读 · 0 评论 -
Spark入门之五:SparkSQL的原理以及架构
1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效转载 2015-11-07 21:03:47 · 7846 阅读 · 0 评论 -
基于Python的Spark Streaming+Kafka编程实践
说明Spark Streaming的原理说明的文章很多,这里不做介绍。本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些优化说明 spark streaming:http://spark.apache.org/docs/1.6.0/streaming-programming-guide.html streaming-kafka-integration:http://sp原创 2017-01-05 18:02:10 · 21550 阅读 · 3 评论