大数据-离线计算-Spark
文章平均质量分 91
五柳-先生
宅边有五柳树,因以为号焉。
展开
-
Spark Streaming 订单关联案例剖析
Apache Spark 是加州大学伯克利分校的 AMPLabs 开发的开源分布式轻量级通用计算框架。由于 Spark 基于内存设计,使得它拥有比 Hadoop 更高的性能(极端情况下可以达到 100x),并且对多语言(Scala、Java、Python)提供支持。其一栈式设计特点使得我们的学习和维护成本大大地减少,而且其提供了很好的容错解决方案。本文将详细地介绍如何使用 Spark St转载 2016-02-28 16:24:04 · 531 阅读 · 0 评论 -
Spark Streaming基础概念介绍
有很多文章讲解storm与spark streaming的区别,都非常详细。本文就介绍一下spark streaming比较重要的概念一、术语介绍:离散流(discretized stream)或DStream:这是Spark Streaming对内部持续的实时数据流的抽象描述,即我们处理的一个实时数据流,在Spark Streaming中对应于一个DStream 实例转载 2016-01-29 13:46:44 · 557 阅读 · 0 评论 -
Spark Streaming 的原理以及应用场景介绍
什么是Spark StreamingSpark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用 Spark的高度抽象原语如:map、re转载 2016-01-29 11:32:16 · 1882 阅读 · 0 评论 -
Akka框架基本要点介绍
Akka基于Actor模型,提供了一个用于构建可扩展的(Scalable)、弹性的(Resilient)、快速响应的(Responsive)应用程序的平台。本文基本上是基于Akka的官方文档(版本是2.3.12),通过自己的理解,来阐述Akka提供的一些组件或概念,另外总结了Akka的一些使用场景。Actor维基百科这样定义Actor模型:在计算科学领域,Actor模型转载 2015-11-30 17:04:16 · 879 阅读 · 0 评论 -
Apache Spark大数据分析入门(一)
Apache Spark的出现让普通人也具备了大数据及实时数据分析能力。鉴于此,本文通过动手实战操作演示带领大家快速地入门学习Spark。本文是Apache Spark入门系列教程(共四部分)的第一部分。全文共包括四个部分:第一部分:Spark入门,介绍如何使用Shell及RDDs第二部分:介绍Spark SQL、Dataframes及如何结合Spark与Cassandra转载 2015-11-30 09:24:31 · 955 阅读 · 0 评论 -
Apache Spark数据分析教程(二):Spark SQL
Spark是一款非常流行同时功能又十分强大的实时数据分析工具。在本 Spark序列教程的第一部分,我们已经对Spark进行了介绍,讲解了Spark的历史,详细解释了用于在Spark集群中进行数据分片存储的弹性分布式数据集( RDDs)并对Apache Spark的生态系统进行了介绍。本教程(第二部分)将对Spark生态系统中占有重要地位的Spark SQL和DataFrame进行介绍,给大转载 2015-11-30 09:25:33 · 1309 阅读 · 0 评论 -
本地开发spark代码上传spark集群服务并运行(基于spark官网文档)
打开IDEA 在src下的main下的scala下右击创建一个scala类 名字为SimpleApp ,内容如下import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.SparkConfobject SimpleApp { def mai转载 2015-11-25 20:41:03 · 757 阅读 · 0 评论 -
hadoop&spark mapreduce对比 & 框架设计和理解
Hadoop MapReduce:MapReduce在每次执行的时候都要从磁盘读数据,计算完毕后都要把数据放到磁盘spark map reduce:RDD is everything for dev:Basic Concepts:转载 2015-11-25 20:34:28 · 624 阅读 · 0 评论 -
spark架构设计&编程模型01
RDD操作例子:RDD的依赖和运行时深入RDD:另一种Partitioner是RangePartitioner:以NewHadoopRDD为例,其诶不的信息如下所示:转载 2015-11-25 20:33:01 · 489 阅读 · 0 评论 -
整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.2版转载 2015-11-25 20:28:35 · 716 阅读 · 0 评论 -
Spark修炼之道(基础篇)——Linux大数据开发基础:第十五节:基础正则表达式(一)
参考书目:鸟哥的LINUX私房菜基础学习篇(第三版) Linux Shell Scripting Cookbook本节主要内容基础正则表达式1. 基础正则表达式(1)^行开始符^匹配一行的开始,例如’^Spark’ 匹配所有Spark开始的行//grep -n表示查找到的结果显示行号root@sparkslave02:~/ShellLearning# grep转载 2015-11-15 11:26:57 · 650 阅读 · 0 评论 -
Spark修炼之道(高级篇)——Spark源码阅读:第一节 Spark应用程序提交流程
spark-submit 脚本应用程序提交流程在运行Spar应用程序时,会将spark应用程序打包后使用spark-submit脚本提交到Spark中运行,执行提交命令如下:root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# ./spark-submit --master spark://sparkmaste转载 2015-11-15 11:44:36 · 910 阅读 · 0 评论 -
Spark SQL 1.3.0 DataFrame介绍、使用及提供了些完整的数据写入
DataFrame就易用性而言,对比传统的MapReduce API,说Spark的RDD API有了数量级的飞跃并不为过。然而,对于没有MapReduce和函数式编程经验的新手来说,RDD API仍然存在着一定的门槛。另一方面,数据科学家们所熟悉的R、Pandas等传统数据框架虽然提供了直观的API,却局限于单机处理,无法胜任大数据场景。为了解决这一矛盾,Spark SQL 1.3.0在转载 2015-10-15 10:45:17 · 1077 阅读 · 0 评论 -
spark streaming源码分析1 StreamingContext
首先看一个最简单的例子,了解大致的样子:[java] view plain copyobject NetworkWordCount { def main(args: Array[String]) { if (args.length 2) { System.err.println("Usage: Net转载 2016-01-29 13:59:02 · 560 阅读 · 0 评论 -
spark streaming源码分析2 从简单例子看DStream上的operation
先贴一下上一节的例子[java] view plain copyobject NetworkWordCount { def main(args: Array[String]) { if (args.length 2) { System.err.println("Usage: NetworkWordCo转载 2016-01-29 14:00:31 · 387 阅读 · 0 评论 -
Spark Streaming 图片处理案例介绍
前文回顾前文《Spark Streaming 新手指南》介绍了 Spark Streaming 的基本工作原理,并以 WordCount 示例进行解释。此外,针对 Spark Streaming 的优缺点也做了一些描述。本文重点主要是解释流式处理架构的工作原理,让读者对 Spark Streaming 的整体设计原理及应用场景有所了解。流式处理框架特征流式处理框架的转载 2016-02-28 16:21:18 · 1178 阅读 · 0 评论 -
Spark Streaming和Kafka整合是如何保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制。为了体验这个关键的特性,你需要满足以下几个先决条件: 1、输入的数据来自可靠的数据源和可靠的接收器; 2、应用程序的metadata被application的driver持久化了(checkpointed ); 3、启用了WAL特性(Write ahead lo转载 2016-03-03 11:27:47 · 2596 阅读 · 0 评论 -
spark core源码分析4 worker启动流程
源码位置:org.apache.spark.deploy.worker.Worker.scala首先查看worker的main方法,与master类似,创建sparkConf,参数解析,以及构造worker对象并创建ActorRef用于对外或者本身的信息交互。这里masters参数可以设置多个[java] view plain copy转载 2016-01-29 16:21:56 · 529 阅读 · 0 评论 -
Intellij_idea-14官方快捷键中文版
全的Intellij Idea 13.1的快捷键 编辑类:Ctrl+Space基本代码实例(类、方法、变量)Ctrl + Shift + Space智能代码实例(根据需要的类型过滤方法和变量)Ctrl + Shift + Enter完整的声明(如有代码提示,自动获取第一个转载 2016-01-29 15:52:42 · 861 阅读 · 0 评论 -
spark core源码分析3 Master HA
这一节讲解master 选举以及之后的处理流程上一节说到在Master启动过程中,首先调用了 Akka actor的preStart方法。[java] view plain copyoverride def preStart() { logInfo("Starting Spark master at " + masterUr转载 2016-01-29 15:29:29 · 353 阅读 · 0 评论 -
spark core源码分析2 master启动流程
源码位置:org.apache.spark.deploy.master.Master.scala一、main主方法:[java] view plain copydef main(argStrings: Array[String]) { SignalLogger.register(log) val conf转载 2016-01-29 15:19:35 · 408 阅读 · 0 评论 -
spark core源码分析2 master启动流程
源码位置:org.apache.spark.deploy.master.Master.scala一、main主方法:[java] view plain copydef main(argStrings: Array[String]) { SignalLogger.register(log) val conf转载 2016-01-29 14:34:26 · 386 阅读 · 0 评论 -
spark core源码分析1 集群启动及任务提交过程
spark版本号:1.4.1spark源码分析目的是在解读源码的过程中记录一些重要的步骤,加深自己的印象,或许也可以给别人提供一些帮助。Standalone集群启动及任务提交过程详解正常启动及job提交过程如下:1. 启动master2. 启动worker3. 客户端提交application到ma转载 2016-01-29 14:26:57 · 487 阅读 · 0 评论 -
SparkSQL 相关API
一、SQLContext.scala中的接口说明大部分接口都是创建DataFrame1、构造:SQLContext的构造只需要一个SparkContext参数2、设置/获取 配置:setConf/getConf3、isCached/cacheTable/uncacheTable/clearCache:数据缓存相关,提高查询速度,需谨慎防止OOM4、read:转载 2016-01-29 14:19:24 · 1978 阅读 · 0 评论 -
SparkSQL 概述
ase on spark 1.5.1 overview一、入口:[java] view plain copyval sc: SparkContext // An existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLContext(sc) /转载 2016-01-29 14:17:50 · 769 阅读 · 0 评论 -
spark streaming源码分析4 DStream相关API
一、InputDStream创建的操作(StreamingContext.scala)1、给定Receiver作为参数,创建ReceiverInputDStream,T为receiver接收到的数据类型[java] view plain copydef receiverStream[T: ClassTag](receiver: Rec转载 2016-01-29 14:09:11 · 484 阅读 · 0 评论 -
spark streaming源码分析3 调度及运行
前面的两节内容介绍了StreamingContext的构造以及在此上的一系列操作。通过调用start方法,真正开始调度执行。首先校验状态是否是INITIALIZED,然后调用JobScheduler的start方法,并将状态设置为ACTIVE。看一下JobScheduler的start方法内部[java] view plain copy转载 2016-01-29 14:04:25 · 378 阅读 · 0 评论 -
Spark 1.5.0 远程调试
Spark 1.5.0 远程调试作者:摇摆少年梦 微信号:zhouzhihubeyond先决条件已安装好Spark集群,本例子中使用的是spark-1.5.0. 安装方法参见:http://blog.csdn.net/lovehuangjiaju/article/details/48494737已经安装好Intellij IDEA,本例中使用的是Intellij IDEA转载 2015-11-15 11:53:56 · 493 阅读 · 0 评论 -
Spark修炼之道(基础篇)——Linux大数据开发基础:第十四节:Shell编程入门(六)
本文主要内容case控制结构read命令管道1. case控制结构参考:http://blog.csdn.net/dreamtdp/article/details/8048720 case控制结构语法格式:case expression in pattern1 ) statements ;; pattern2 )转载 2015-11-15 11:22:21 · 515 阅读 · 0 评论 -
Spark修炼之道(基础篇)——Linux大数据开发基础:第十二节:Shell编程入门(四)
本节主要内容shell脚本调试shell函数shell控制结构初步1. shell脚本调试当脚本出错时,需要对脚本进行调试,学会脚本调试是每个linux系统使用者必备技能。shell脚本调试无需任何额外的工具,只需要要在脚本文件前加-x选项即可,创建debug.sh文件,内容如下:#!/bin/bash#Filename: debug.shecho "scripting转载 2015-11-14 17:11:14 · 419 阅读 · 0 评论 -
Spark修炼之道(基础篇)——Linux大数据开发基础:第五节:vi、vim编辑器(一)
本节主要内容vim编辑器的三种模式移动光标输入模式修改文本作者:周志湖 微信号:zhouzhihubeyond 网名:摇摆少年梦1. vi编辑器的三种模式学会使用vi编辑器是学习linux系统的必备技术之一,因为一般的linux服务器是没有GUI界面的,linux运维及开发人员基本上都是通过命令行的方式进行文本编辑或程序编写的。vi编辑器是linux内置的文转载 2015-11-14 14:50:51 · 631 阅读 · 0 评论 -
Spark修炼之道(基础篇)——Linux大数据开发基础:第四节:Linux文件系统(二)
本节主要内容访问控制列表ACL链接压缩和归档文件其他日常管理实用程序1. 访问控制列表ACL在实际使用使用过程中,可能linux系统自身权限控制不能满足要求,还需要进一步细化,此时可以用ACL( Access Control List )进行,它主要提供 owner,group,others 的 read,write,execute 权限之外的细部权限配置。它可以针对单一使转载 2015-11-14 14:43:47 · 493 阅读 · 0 评论 -
Spark修炼之道(基础篇)——Linux大数据开发基础:第三节:用户和组
本节主要内容理解用户和组的概念用户管理组管理权限分配1. 理解用户和组的概念在第一讲中我们提到,linux是一种多任务、多用户的操作系统,在讲ls -l命令行我们看到如下文件详细信息:root@ubuntu:/home/xtwy# ls -ltotal 48drwxr-xr-x 2 xtwy xtwy 4096 2015-08-20 23:31 Desktopdr转载 2015-11-14 14:40:54 · 590 阅读 · 0 评论 -
Spark修炼之道(基础篇)——Linux大数据开发基础:第二节:Linux文件系统、目录(一)
本节主要内容如何获取帮助文档Linux文件系统简介目录操作访问权限1. 如何获取帮助文档在实际工作过程当中,经常会忘记命令的使用方式,例如ls命令后面可以跟哪些参数,此时可以使用man命令来查看其使用方式,例如//man命令获取命令帮助手册xtwy@ubuntu:~$ man ls123可以使用键盘上的 来显示下一行或上一行命令,也可以使用 进行上一转载 2015-11-14 14:39:44 · 662 阅读 · 0 评论 -
Spark修炼之道(基础篇)——Linux大数据开发基础:第一节、Linux介绍、安装及使用初步
本节主要内容Linux简史Linux系统整体介绍Ubuntu Linux安装Linux使用初步1. Linux简史要讲述大名鼎鼎的Linux,必然要先从UNIX系统谈起,下面这幅图给出了Unix系统的进化图: 图片来源:http://baike.baidu.com/link?url=QfoqWtWGs-BjpnfEy_AUk7Bm3XHuf6JbN92HCOoUB转载 2015-11-14 14:36:09 · 846 阅读 · 0 评论 -
Spark On Yarn(HDFS HA)详细配置过程
一、服务器分布及相关说明1、服务器角色2、Hadoop(HDFS HA)总体架构 二、基础环境部署1、JDK安装http://download.oracle.com/otn-pub/java/jdk/7u45-b18/jdk-7u45-linux-x64.tar.gz# tar xvzf jdk-7u45-linux-x64.tar.gz -转载 2015-10-12 18:46:15 · 931 阅读 · 0 评论 -
Spark:一个高效的分布式计算系统
概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习转载 2015-09-10 17:47:53 · 462 阅读 · 0 评论 -
Spark集群安装和使用
本文主要记录 CDH5 集群中 Spark 集群模式的安装过程配置过程并测试 Spark 的一些基本使用方法。安装环境如下:操作系统:CentOs 6.5Hadoop 版本:cdh-5.3.0Spark 版本:cdh5-1.2.0_5.3.0关于 yum 源的配置以及 Hadoop 集群的安装,请参考 使用yum安装CDH Hadoop集群。1. 安装首先查看 Spar转载 2015-04-12 13:41:31 · 8527 阅读 · 0 评论 -
Spark编程指南笔记
本文是参考Spark官方编程指南(Spark 版本为1.2)整理出来的学习笔记,主要是用于加深对 Spark 的理解,并记录一些知识点。1. 一些概念每一个 Spark 的应用,都是由一个驱动程序构成,它运行用户的 main 函数,在一个集群上执行各种各样的并行操作。Spark 提出的最主要抽象概念是弹性分布式数据集,它是一个有容错机制(划分到集群的各个节点上)并可以被并行操作的元素集转载 2015-04-12 13:44:52 · 620 阅读 · 0 评论 -
Spark修炼之道(基础篇)——Linux大数据开发基础:第六节:vi、vim编辑器(二)
本节主要内容缓冲区的使用文件的存盘与读盘文本查找文本替换作者:周志湖 微信号:zhouzhihubeyond 网名:摇摆少年梦1. 缓冲区的使用在利用vim进行文本编辑时,编辑修改后的文本不会立即保存到硬盘上,而是保存在缓冲区中,如果没有把缓冲区里的文件存盘,原始文件不会被更改。vim在打开文件时将文本内容读到缓冲区中,在进行文本编辑时,修改的文本保存在缓冲转载 2015-11-14 14:53:06 · 538 阅读 · 0 评论