- 博客(131)
- 收藏
- 关注
原创 深度解析Spark
Spark是UC Berkeley AMP lab所开发类似于Hadoop MapReduce的通用并行计算框架,Spark是基于map reduce算法实现分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出的结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce算法。...
2019-12-24 12:59:42 325
原创 大数据Spark性能优化指南基础
在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能...
2019-12-09 14:22:28 238
原创 大数据计算框架Spark之内存模型
Executor 端的内存模型,包括堆内内存(On-heap Memory)和堆外内存(Off-heap Memory)存管理接口(MemoryManager )Spark 为Execution 内存和Storage 内存的管理提供了统一的接:MemoryManager。MemoryManager 的具体实现上,Spark 1.6 之后默认为统一管理(Unified Memo...
2019-12-25 12:09:56 505
原创 最详细的Spark内存管理
spark 各版本的内存参数:一.Spark 1.6内存管理:spark 1.6之前 使用StaticMemoryManager,叫legacy模式,默认是关闭的。spark1.6开始,使用UnifiedMemoryManager。1.6开始的内存结构:由上图知道,内存由三部分组成。1.Reserved Memory ,系统保留的内存,是硬编码写死的,s...
2019-12-25 12:06:02 891
原创 Spark大数据集群计算的生产实践
本文会介绍 Spark 核心社区开发的生态系统库,以及 ML MLlib 及 Spark Streaming 的 Spark 库的具体用法,对于企业的各种用例及框架也进行了说明。spark拥有一个庞大的、不断增长的社区,还有在企业环境中不可或缺的生态系统。这些生态系统提供了不同生产环境案例所需的许多功能。一般来说,Spark 应用做的是机器学习算法、日志聚合分析或者商务智能相关的...
2019-12-25 12:00:56 447
原创 大数据技术分享:Spark Streaming 技术点汇总
park Streaming支持实时数据流的可扩展(Scalable)、高吞吐(high-throughput)、容错(fault-tolerant)的流处理(stream processing)。架构图特性如下:• 可线性伸缩至超过数百个节点;• 实现亚秒级延迟处理;• 可与 Spark 批处理和交互式处理无缝集成;• 提供简单的API实现复杂算法;• 更多的...
2019-12-25 11:56:28 323
原创 Spark RDD 概念以及核心原理
2、依赖关系下的数据流视图 在spark中,会根据RDD之间的依赖关系将DAG图划分为不同的阶段,对于窄依赖,由于partition依赖关系的确定性,partition的转换处理就可以在同一个线程里完成,窄依赖就被spark划分到同一个stage中,而对于宽依赖,只能等父RDD shuffle处理完成后,下一个stage才能开始接下来的计算。 因此spark划...
2019-12-25 11:28:37 292
原创 Spark 与 Mapreduce 对比(多进程、多线程)
多进程模型,多线程模型Hadoop MapReduce采用了多进程模型,而Spark采用了多线程模型:Apache Spark的高性能一定程度上取决于它采用的异步并发模型(这里指server/driver 端采用的模型),这与Hadoop 2.X(包括YARN和MapReduce)是一致的。Hadoop 2.X自己实现了类似Actor的异步并发模型,实现方式是epoll+...
2019-12-25 11:21:19 591
原创 大数据流计算引擎丨Spark和Flink的巅峰对决,究竟谁才是大哥
2018和2019年是大数据领域蓬勃发展的两年,自2019年伊始,实时流计算技术开始步入普通开发者视线,各大公司都在不遗余力地试用新的流计算框架,实时流计算引擎Spark Streaming、Kafka Streaming、Beam和Flink持续火爆。最近Spark社区,来自Databricks、NVIDIA、Google以及阿里巴巴的工程师们正在为Apache Spark 3.0添加原生的...
2019-12-25 11:19:44 452
原创 大数据处理 | Spark集群搭建及基本使用
本文来详细介绍一下Spark集群的搭建及Spark的运行原理、运行模式。—▼—Spark集群环境搭建如果已经理解了前文Hadoop集群环境的搭建,那么学习Spark集群环境的搭建会容易很多,因为Hadoop和Spark不仅安装包目录结构非常相似,在配置方面也十分接近。均是在master节点上进行所有配置,然后打包复制到每个slave节点,然后启动集群Spark即可,下面就...
2019-12-25 11:16:12 588
原创 大数据 | Spark机器学习工作流开发指南
Spark.ml是在Spark 1.2开始引入的一个包,它旨在提供一套统一的高级API,帮助用户创建和优化实用的机器学习工作流,它在原来的MLlib的基础上进行了大量的改进和优化,让Spark生态更见坚不可摧,本文就来详细介绍一下Spark机器学习工作流的基本概念和用法。—▼—我建了一个QQ学习交流群,旨在“分享、讨论、学习、资源分享、就业机会、互联网内推、共同进步!”,感兴趣的可以加...
2019-12-25 11:14:09 311
原创 每周一书《Spark与Hadoop大数据分析》分享!
Spark与Hadoop大数据分析比较系统地讲解了利用Hadoop和Spark及其生态系统里的一系列工具进行大数据分析的方法,既涵盖ApacheSpark和Hadoop的基础知识,又深入探讨所有Spark组件——SparkCore、SparkSQL、DataFrame、DataSet、普通流、结构化流、MLlib、Graphx,以及Hadoop的核心组件(HDFS、MapReduce和Yarn)等...
2019-12-25 11:08:53 314
原创 5分钟图解《Spark快速大数据分析》步骤4:将Shell日志信息精简化
第1步:进入E盘spark安装目录下的conf文件夹,将log4j.properties.template在本文件夹下复制一份,并重命名为log4j.properties第2步:用记事本打开log4j.properties文件,将按照下图红框修改,由INFO改成WARN,并保存。第3步:重新启动Spark Shell,发现日志信息大量减少。Spark...
2019-12-24 12:57:31 225
原创 5分钟图解《Spark快速大数据分析》步骤3:安装Spark(win7版)
第1步:进入官网,下载spark安装包http://spark.apache.org/downloads.html第2步:将spark安装包解压到E盘第3步:键盘按下Windows+R,输入cmd,点击确认第4步:输入以下命令第5步:屏幕应当出现以下内容第6步:输入以下内容,反应和下图所示相同,说明安装成功...
2019-12-24 12:55:15 181
原创 5分钟图解《Spark快速大数据分析》步骤2:安装scala(win7版)
第1部:登录scala官网:https://www.scala-lang.org/download/第2步:在首页就能找到下载链接,点击下载第3步:在E盘新建一个文件夹scala第4步:双击安装包,点击下一步第5步:修改安装路径(这里建议不要选择默认的安装路径,后续可能会报错),然后继续安装。安装路径为:E:\scala第6步:...
2019-12-24 12:53:28 211
原创 5分钟图解《Spark快速大数据分析》步骤1:安装JAVA(win7版)
第1步:进入官网下载1.8版本以上的JDK直接复制链接:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html第2步:在D盘新建Java文件夹,并在Java文件夹里新建jdk、jre这两个文件夹第3步:双击安装第4步:设置jdk安装路径...
2019-12-24 12:47:32 182
原创 5分钟图解《Spark快速大数据分析》步骤5:Spark第一个简单案例
第0步:先欣赏下图红框内容,下面三行代码,就是一个完整的简单案例。第1步:通过读取文件“README.md”,创建一个名为lines的RDD。这个源文件就位于spark的根目录下,可以在E盘spark安装文件夹里找到。第2步:使用count()方法,统计RDD中元素的个数,结果显示有103个元素。第3步:使用first()方法,统计RDD中的第一...
2019-12-24 12:46:01 592
原创 Apache Spark 实现可扩展日志分析,挖掘系统最大潜力(1)
几乎每个大大小小的组织都有多个系统和基础设施日复一日地运行。为了有效地保持业务运行,组织需要知道他们的基础设施是否发挥了最大潜力。这包括分析系统和应用程序日志,甚至可能对日志数据应用预测分析。引言现如今,在利用分析的案例中,日志分析是最流行、最有效的企业案例之一。几乎每个大大小小的组织都有多个系统和基础设施日复一日地运行。为了有效地保持业务运行,组织需要知道他们的基础设施是否...
2019-12-24 12:41:35 255
原创 Apache Spark大数据分析入门(一)教程
Apache Spark的出现让普通人也具备了大数据及实时数据分析能力。鉴于此,本文通过动手实战操作演示带领大家快速地入门学习Spark。本文是Apache Spark入门系列教程(共四部分)的第一部分。全文共包括四个部分:第一部分:Spark入门,介绍如何使用Shell及RDDs 第二部分:介绍Spark SQL、Dataframes及如何结合Spark与Cassandra一起使用 ...
2019-12-24 12:33:24 1390
原创 「Spark大数据系列」spark RDD 深入浅出之 理解RDD 是什么
一.理解RDD 是什么RDD的全称是:Resilient Distributed Dataset (弹性分布式数据集),它有几个关键的特性:RDD是只读的,表示它的不可变性。可以并行的操作分区集合上的所有元素。怎么做到的呢?我们可以从RDD的内部实现来进行了解。每个RDD的内部,有5个主要特性:A list of partitions (一个分区列表,可以获取所有的数据分区)A ...
2019-12-24 12:29:55 217
原创 大数据干货丨京东基于 Spark 的风控系统架构实践和技术细节
背景京东作为国内电商的龙头企业,在今天遭受着严酷的风险威胁。机器注册账号、恶意下单、黄牛抢购、商家刷单等等问题如果不被有效阻止,会给京东和消费者带来难以估量的损失互联网行业中,通常使用风控系统抵御这些恶意访问。在技术层面上来讲,风控领域已逐渐由传统的“rule-base”(基于规则判断)发展到今天的大数据为基础的实时+离线双层识别。Hadoop,Spark等大数据大集群分布式处理框架的不断...
2019-12-24 12:27:46 940
原创 5分钟图解《Spark快速大数据分析》步骤6:RDD基本概念精炼版
第1步:RDD是什么?RDD其实就是一个分布式的元素集合。作为一个数据集合,它感觉起来跟Array、List等集合差不多,只不过它复杂一些,这些集合中的数据,是分布在不同的电脑主机上的。第2步:白话RDD计算流程(Spark Shell版):1、进入WindowsDOS 命令行(开始--->运行--->cmd)2、启动Spark shell。(Spark shell是一...
2019-12-21 18:12:45 281
原创 从WordCount看Spark大数据处理的核心机制
大数据处理肯定是分布式的了,那就面临着几个核心问题:可扩展性,负载均衡,容错处理。Spark是如何处理这些问题的呢?接着上一篇的“动手写WordCount”,今天要做的就是透过这个大数据界的HelloWorld来看看Spark隐藏了哪些魔法。请各位看官,带着分布式的问题往下看。分布式架构大数据时代,单机装下PB级的数据,然后在可接受的时间内处理完,不可能,所以一定是分布式的。▶ 分...
2019-12-21 18:10:18 172
原创 大数据开发学习:Spark和Hadoop MapReduce有什么区别?
很多人认为Spark 将代替 Hadoop MapReduce,成为未来大数据处理发展的方向,MapReduce和Spark之间存在哪些区别?Spark会取代Hadoop吗?大数据技术学习为什么要既要学习Hadoop又要学习Spark?今天就来说说这二者。Hadoop MapReduce:一种编程模型,是面向大数据并行处理的计算模型、框架和平台,用于大规模数据集(大于1T...
2019-12-21 18:04:06 446
原创 大数据Spark中对RDD的理解
大数据开发技术在各大公司企业中一直备受关注,因此想要参加大数据培训学习大数据开发技术的人有很多,本篇文章小编就给读者们分享一下大数据Spark中对RDD的理解。RDD(Resilient Distributed Datasets),RDD是一个弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限共享内存模型。关于大数据Spark中对RDD的理解,现在分享给大家。RDD的特...
2019-12-21 17:59:41 268
原创 大数据系列:Spark的工作原理及架构
介绍本Apache Spark教程将说明Apache Spark的运行时架构以及主要的Spark术语,例如Apache SparkContext,Spark shell,Apache Spark应用程序,Spark中的任务(Task),作业(job)和阶段(stage)。此外,我们还将学习Spark运行时体系结构的组件,例如Spark driver,集群管理器(cluster m...
2019-12-21 17:57:43 510
原创 3分钟让你学会大数据:Spark生态原理剖析
Spark是基于内存计算的通用大规模数据处理框架。Spark快的原因:Spark基于内存,尽可能的减少了中间结果写入磁盘和不必要的sort、shuffle Spark对于反复用到的数据进行了缓存 Spark对于DAG进行了高度的优化,具体在于Spark划分了不同的stage和使用了延迟计算技术弹性数据分布集RDD:Spark将数据保存分布式内存中,对分布式内存的抽象理解...
2019-12-21 17:55:49 149
原创 Spark大数据处理框架入门-包括生态系统、运行流程以及部署方式
Spark 大数据处理框架简介Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架。Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而...
2019-12-21 17:54:08 457
原创 权威指南:Hadoop vs Spark vs Flink –大数据框架比较
一、目的在本文中,我们将对 Apache Hadoop、Spark、 Flink三者之间的功能进行比较。它们都是大数据处理技术,以各种特色和优势迅速占领了IT大数据处理市场。本文您将了解Spark所针对的Hadoop的局限性以及由于 Spark的缺点而产生Flink数据处理引擎。因此,让我们开始Hadoop vs Spark vs Flink吧。Hadoop vs Spark vs F...
2019-12-21 17:47:10 4649
原创 Hadoop、Spark、Kylin...你知道大数据框架名字背后的故事吗?
对软件命名并不是一件容易的事情,名字要朗朗上口,易于记忆,既不能天马行空,又要代表软件本身的功能和创新。本文将例数几款大数据框架及其创始背后的故事。Hadoop:最具童心2004年,Apache Hadoop(以下简称Hadoop)的创始人Doug Cutting和Mike Cafarella受MapReduce编程模型和Google File System等论文的启发,对论文中提及的思想...
2019-12-21 17:44:45 467
原创 深入浅出理解 Spark:环境部署与工作原理
一、Spark 概述Spark 是 UC Berkeley AMP Lab 开源的通用分布式并行计算框架,目前已成为 Apache 软件基金会的顶级开源项目。Spark 支持多种编程语言,包括 Java、Python、R 和 Scala,同时 Spark 也支持 Hadoop 的底层存储系统 HDFS,但 Spark 不依赖 Hadoop。1.1 Spark 与 HadoopSpark...
2019-12-21 17:42:10 292
原创 Spark成为大数据分析领域新核心的五个理由
在过去几年当中,随着Hadoop逐步成为大数据处理领域的主导性解决思路,原本存在的诸多争议也开始尘埃落定。首先,Hadoop分布式文件系统是处理大数据的正确存储平台。其次,YARN是大数据环境下理想的资源分配与管理框架选项。第三也是最重要的一点,没有哪套单一处理框架能够解决所有问题。虽然MapReduce确实是一项了不起的技术成果,但仍然不足以成为百试百灵的特效药。依赖于Hadoop的企业...
2019-12-20 15:34:07 279
原创 大数据:Spark性能优化指南——高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。Spark性能优化指南——基础篇数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方...
2019-12-20 15:30:05 651
原创 大数据技术应用干货:Spark在360商业数据部的应用实践
Spark是一个正在快速成长的开源集群计算系统,生态系统中的包和框架日益丰富,使得Spark能够进行高级数据分析。功能强大、易于使用性,相比于传统的MapReduce大数据分析,Spark效率更高、运行时速度更快。成都加米谷大数据开发培训,学习hadoop、spark等技术。Spark的应用现状Spark需求背景随着数据规模的持续增长,数据需求越来越多,原有的以MapRedu...
2019-12-20 15:26:51 324
原创 大数据分析工程师面试集锦:Spark 面试指南
本篇文章为大家带来spark面试指南,文内会有两种题型,问答题和代码题,题目大部分来自于网络上,有小部分是来自于工作中的总结,每个题目会给出一个参考答案。为什么考察Spark?Spark作为大数据组件中的执行引擎,具备以下优势特性。1.高效性。内存计算下,Spark 比 MapReduce 快100倍。Spark使用最先进的DAG调度程序、查询优化程序和物理执行引擎,实现批量...
2019-12-20 15:18:03 384
原创 大数据技术之SparkSQL(四)RDD、DataFrame、DataSet异同
2.5 RDD、DataFrame、DataSet在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后...
2019-12-20 15:16:23 354 1
原创 大数据技术之Spark入门(二)Spark运行模式
2.1 Spark安装地址1.官网地址http://spark.apache.org/2.文档查看地址https://spark.apache.org/docs/2.1.1/3.下载地址https://spark.apache.org/downloads.html2.2 重要角色2.2.1 Driver(驱动器)Spark的驱动器是执行开发程序中的main方法的...
2019-12-20 15:13:16 430
原创 大数据学习笔记之Spark:Spark基础解析
第1章Spark概述spark的产生背景spark是如何产生的,这要先送大数据说起,大数据是如何产生的?Google就是处理大数据的,网页和网页之间有很多的关联关系,为了处理排序啊这些算法,所以Google就发明了,Google就发布了三个论文,基于这三个论文的开源,实现了Hadoop、Hdfs、MapReduce、Hbase等,但是感觉好像每次MapReduce只能处理一次数据...
2019-12-20 15:06:52 509
原创 大数据技术,Spark核心技术之运行原理
在大数据领域,只有深挖数据科学领域,走在学术前沿,才能在底层算法和模型方面走在前面,从而占据领先地位。Spark的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显。Spark提供的基于RDD的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning、Graph Process...
2019-12-20 15:04:15 305
原创 Python与Spark大数据!
数据分析经常会遇到数据量大的问题,比如用Python语言时经常会遇到内存溢出的问题,即使把整个机器内存全部使用,达到最大使用率,还是无济于事,比如数据量是10T,并且在大数据量下,既要保证数据能够得出结果,还要一个好的模型进行迭代训练,得到一个好的模型。这些很难。这里有两个问题数据量大 模型训练准确性对于第一个问题,就算单机内存再大,也是不可能处理未来不可预知的增长的数据的,这时候就需...
2019-12-20 15:02:09 600
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人