spark
文章平均质量分 84
javastart
专注于大数据 AI
展开
-
[SPARK][SQL] 面试问题之Spark AQE新特性
学习过 Shuffle 的工作原理之后,我们知道,每个 Map Task 都会输出以 data 为后缀的数据文件,还有以 index 为结尾的索引文件,这些文件统称为中间文件。如上图所示,N个task用于处理表A的偏斜分区0,每个task只读取表A的少数mapper的shuffle输出,并与表B的分区0进行join,将这N个task的结果合并得到最终的join结果. 为了实现这一点,我们更新了 shuffle read API 以允许仅从几个映射器而不是全部读取分区。了解一个功能,先来了解其面临的问题。转载 2023-01-11 15:13:57 · 677 阅读 · 0 评论 -
CDH之HIVE-ON-SPARK、Spark配置
CDH之HIVE-ON-SPARK、Spark配置转载 2022-07-31 15:08:35 · 1165 阅读 · 0 评论 -
GC调优在Spark应用中的实践
GC调优在Spark应用中的实践(转载)Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计算库,正在工业界获得越来越广泛的应用。与Hadoop、HBase生态圈的众多项目一样,Spark的运行离不开JVM的支持。由于Spark立足于内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制(GC)。并且同时,它也支持兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求,因此GC参数的调优在Spark应用实践中显得尤为重要。本文主要讲述如转载 2020-05-23 15:35:09 · 334 阅读 · 0 评论 -
Spark Streaming容错的改进和零数据丢失
Spark Streaming容错的改进和零数据丢失发表于2015-03-04 15:28| 4850次阅读| 来源Databricks| 2 条评论| 作者Tathagata DasSpark开发者大数据数据库摘要:实时流处理系统必须要能在24/7时间内工作,因此它需要具备从各种系统故障中恢复过来的能力。最开始,Spark Streaming就支持从drive转载 2016-08-13 16:35:44 · 488 阅读 · 0 评论 -
Spark 体系架构
Spark 体系架构局长 发布于: 2016年09月03日 (43评)分享到: 收藏+1371人1天即可接入,共享网易15年音视频技术>>>» 最近看到一篇关于Spark架构的博文,作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道,他对Spark理解地非常深入,读转载 2016-09-21 18:39:46 · 783 阅读 · 0 评论 -
Spark排错与优化
[置顶] Spark排错与优化标签: spark优化sparkspark排错2015-10-15 17:08 7628人阅读 评论(4) 收藏 举报 分类:Spark(56) 版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]一. 运维1. Master挂掉,standby重启转载 2016-09-30 19:24:20 · 1305 阅读 · 0 评论 -
数据倾斜是多么痛?spark作业调优秘籍
数据倾斜是多么痛?spark作业调优秘籍不鸡道叫啥2016/11/09 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜是多么痛?!!!数据倾斜如果能够解决的话,代表对spar转载 2016-11-10 18:11:27 · 2394 阅读 · 0 评论 -
实现CDH支持Spark SQL功能
实现CDH支持Spark SQL功能标签: sparkclouderasqlCDHthirft server2016-08-11 13:47 384人阅读 评论(0) 收藏 举报 分类:spark(2) 版权声明:本文为博主原创文章,未经博主允许不得转载。CDH内嵌Spark版本不支持spark-sql,可能是因为cloude转载 2016-11-16 13:48:52 · 4407 阅读 · 0 评论 -
An introduction to JSON support in Spark SQL
An introduction to JSON support in Spark SQLby Yin Huai Posted in ENGINEERING BLOGFebruary 2, 2015Note: Starting Spark 1.3, SchemaRDD will be renamed to DataFrame.In this blog post,转载 2016-11-22 08:49:59 · 465 阅读 · 0 评论 -
Spark On YARN内存分配
Spark On YARN内存分配时间 2015-06-09 00:00:00 JavaChen's Blog原文 http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html主题 Spark YARN本文主要了解Spark On YARN部署模式下的内存分配情况,因为没有深入研究Spa转载 2016-12-19 13:46:06 · 653 阅读 · 0 评论 -
四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍
四两拨千斤:借助Spark GraphX将QQ千亿关系链计算提速20倍2016-08-06 13:15 来源:PPV课大数据腾讯QQ有着国内最大的关系链,而共同好友数,属于社交网络分析的基本指标之一,是其它复杂指标的基础。借助Spark GraphX,我们用寥寥100行核心代码,在高配置的TDW-Spark集群上,只花了2个半小时,便完成了原来需要2天的全量共转载 2016-08-25 08:48:55 · 853 阅读 · 0 评论 -
Spark连接到MySQL并执行查询为什么速度会快?
问题导读:1. Spark为什么能提高Mysql的查询速度?2. 如何运行SQL in Spark?3. SparkSQL如何将查询推送到MySQL?4. 如何使用Spark缓存查询数据?5. 如何使用 Spark 和 Percona XtraDB Cluster?6. Spark表分区时需要注意的事项?7. Spark表现不好的时候?在这篇文章中我们将讨论转载 2016-08-27 19:14:52 · 7156 阅读 · 2 评论 -
Spark教程(2)Spark Streaming 介绍
问题导读1、如何利用DStream所提供的api,而在数据流上实时进行操作?2、你如何理解Spark Streaming启动后的流程?3、如何创建StreamingContext对象?随着big data的发展,人们对大数据的处理要求也越来越高,传统的MapReduce等批处理框架在某些特定领域(如实时用户推荐,用户行为分析)已经无法满足人们对实时性的需求。因此转载 2016-06-18 23:00:38 · 1106 阅读 · 0 评论 -
大数据:Spark性能优化指南 高级篇
大数据:Spark性能优化指南 高级篇热点网2016-05-16 15:06:55阅读(163)评论(0)声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。举报 前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调转载 2016-07-10 21:08:00 · 4335 阅读 · 0 评论 -
Spark Streaming使用Kafka保证数据零丢失
Spark Streaming使用Kafka保证数据零丢失Kafka Spark Streaming 2016-02-02 09:06:58 发布您的评价: 0.0收藏 0收藏来自: https://community.qingcloud.com/topic/转载 2016-06-27 21:05:57 · 999 阅读 · 0 评论 -
SparkTask未序列化(Tasknotserializable)问题分析
问题描述及原因分析在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部变量在许多情形下确实在所难免,比如在filter算子根据外部指定的条件进行过滤,map根据相应的配置进行变换等。为了解决上述Task未序列化问题,这里对其进行了研究和总结。 出现“org.apache.spark.S转载 2016-04-21 10:39:15 · 32298 阅读 · 10 评论 -
Apache Spark在SnappyData支持即时SQL分析
Pivotal’s GemFire的基于内存数据存储团队最近发布了一种新的数据库解决方案,叫做SnappyData,基于GemFire 和 Apache Spark。SnappyData是最近又出现的一个使用Spark作为组件的数据库解决方案。这种使用Spark的方案中,有一些使用了Apache Hadoop的技术。SnappyData的查询可以使用传统的SQL语句,或者使用Spark的查询,转载 2016-05-03 19:58:18 · 4558 阅读 · 0 评论 -
Spark 数据ETL及部分代码示例
问题导读:1.数据如何处理?2.从数据中如何提取有用的特征?3.有哪些衍生特征?数据处理以及转化1、当我们完成了一些对数据集的探索和分析,我们知道了一些关于用户数据以及电影数据的特征,接下来我们该做些什么呢? 2、为了让原始数据能够在机器学习算法中变得有用,我们首先需要清理以及在提取有用的特征值之前使用各种转载 2016-05-03 19:51:55 · 5243 阅读 · 0 评论 -
Apache Spark Jobs 性能调优(二)
Apache Spark Jobs 性能调优(二)2016-03-27 12:16:12标签:spark性能在这篇文章中,首先完成在 Part I 中提到的一些东西。作者将尽量覆盖到影响 Spark 程序性能的方方面面,你们将会了解到资源调优,或者如何配置 Spark 以压榨出集群每一分资源。然后我们将讲述调试并发度,这是job性能中最难也是最重要的参数。最后,你将了解到数转载 2016-03-28 18:39:56 · 728 阅读 · 0 评论 -
操作技巧:将 Spark 中的文本转换为 Parquet 以提升性能
操作技巧:将 Spark 中的文本转换为 Parquet 以提升性能列式存储布局(比如 Parquet)可以加速查询,因为它只检查所有需要的列并对它们的值执行计算,因此只读取一个数据文件或表的小部分数据。Parquet 还支持灵活的压缩选项,因此可以显著减少磁盘上的存储。0评论:JESSE F. CHEN, 软件工程师关闭 [x]转载 2016-03-28 17:30:27 · 8734 阅读 · 1 评论 -
Spark朴素贝叶斯(naiveBayes)
捐助大数据系列零基础由入门到实战视频大优惠本帖最后由 InSight 于 2015-4-30 23:46 编辑问题导读:1.什么是朴素贝叶斯?2.朴素贝叶斯运行在什么样的场景下?3.朴素贝叶斯计算流程是什么?介绍 Byesian算法是统计学的分类方法,它是一种利用概率统计知识进行分类的算法。转载 2017-01-15 16:28:53 · 1388 阅读 · 0 评论 -
Spark MLlib实现的中文文本分类–Naive Bayes
Spark MLlib实现的中文文本分类–Naive Bayes Spark lxw1234@qq.com 12个月前 (01-22) 15214℃ 23评论关键字:spark mllib、文本分类、朴素贝叶斯、naive bayes文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好转载 2017-01-15 16:30:34 · 1239 阅读 · 0 评论 -
spark 写 gp/tpg 效率优化:写入 237w 行数据耗时从 77 分钟到 34 秒
请原谅我标题党了,这年代不标题党没法混啊。。。 T .T其实事情很简单,先介绍一下背景,背景是我们 lz 或者 tesla 上跑 spark 任务,一通计算之后,结果总要落地,一般落地到 tdw/tpg,而具体到我们这次的场景中,我们用的是 gp,gp 全称是 greenplum,是一个 mpp 版本的 postgresql,可以参考这个简介《Pivotal开源基于PostgreS转载 2017-08-21 19:51:30 · 5547 阅读 · 3 评论 -
CDH5.11 离线安装或者升级spark2.x详细步骤
CDH5.11 离线安装或者升级spark2.x详细步骤标签: clouderaspark集群centosapache2017-06-23 17:36 1803人阅读 评论(5) 收藏 举报简介:在我的CDH5.11集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装转载 2017-08-21 14:46:24 · 1669 阅读 · 0 评论 -
60 TB 数据:Facebook 是如何大规模使用 Apache Spark 的
Facebook 经常使用数据驱动的分析方法来做决策。在过去的几年,用户和产品的增长已经需要我们的分析工程师一次查询就要操作数十 TB 大小的数据集。我们的一些批量分析执行在古老的 Hive 平台( Apache Hive 由 Facebook 贡献于 2009 年)和 Corona 上——这是我们定制的 MapReduce 实现。Facebook 还不断增加其对 Presto 的用量,用转载 2017-07-04 19:28:04 · 671 阅读 · 0 评论 -
Spark App自动化分析和故障诊断
Spark App自动化分析和故障诊断大数据 Spark 苏宁阅读475 陈泽,苏宁云商IT总部高级技术经理。苏宁云商大数据离线计算平台的计算方向负责人,目前主要从事Yarn,Hive,Spark,Druid等计算组件研发工作。曾就职于百度,有多年的Spark大数据方向的研发经验,精通Spark SQL,Druid等内核原理,有丰富的转载 2017-06-21 20:35:19 · 1495 阅读 · 0 评论 -
在Spark上通过自定义RDD访问HBase
在Spark上通过自定义RDD访问HBase2017年6月21日作者:robin暂无评论文章目录 [显示]这里介绍一个在Spark上使用自定义RDD获取HBase数据的方案。这个方案的基础是我们的HBase表的行键设计。行键设计大概是这样子的:标签ID+时间戳+随机码。平时的需求主要是导出指定标签在某个时间范围内的全部记录。根据需求和行键设计确定转载 2017-06-21 20:18:05 · 1253 阅读 · 0 评论 -
关于spark的mllib学习总结(Java版)
本篇博客主要讲述如何利用Spark的mliib构建机器学习模型并预测新的数据,具体的流程如下图所示: 加载数据对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper methods to load,save and pre-process data used in MLLib.博客中的数据是采用spark中提供的数据sample_libsvm_data.t转载 2017-04-24 20:55:30 · 952 阅读 · 0 评论 -
Spark --- 启动、运行、关闭过程
分类:Spark版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]计算PI值// scalastyle:off printlnpackage org.apache.spark.examplesimport scala.math.randomimport org.apache.spark._/**转载 2017-05-05 16:33:16 · 1602 阅读 · 0 评论 -
[置顶] Spark2.1.0文档:Spark Streaming 编程指南(下)-性能调优和容错语义
目录(?)[+]性能调优如果想要群集上的SparkStreaming应用程序中获得最佳性能,你需要进行一些优化操作。本节介绍了一些参数和配置,可以通过调整这些参数和配置以提高应用程序性能。在高层次上,你需要考虑两件事情:1、通过有效利用集群资源减少每批数据的处理时间。2、设置正确的batch size,使得每批数据的处理速度可以像接收速度那样快速(即数据处理转载 2017-05-24 19:40:40 · 722 阅读 · 0 评论 -
技术实操|Apache Spark 内存管理详解(上篇)
技术实操|Apache Spark 内存管理详解(上篇)Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需转载 2017-05-23 20:57:59 · 838 阅读 · 0 评论 -
SparkGraphX加权最短路径算法实现
SparkGraphX加权最短路径算法实现标签: sparkgraphxdijkstra2016-10-14 13:57 477人阅读 评论(0) 收藏 举报 分类:Spark GraphX版权声明:本文为博主原创文章,未经博主允许不得转载。版本:Spark 1.6 该版本自带的最短路径算法shortestPaths没办法转载 2017-04-16 19:26:36 · 3440 阅读 · 0 评论 -
技术实操|Apache Spark 内存管理详解(下篇)
技术实操|Apache Spark 内存管理详解(下篇) 2017-04-01 09:40 浏览次数:2683. 存储内存管理3.1 RDD 的持久化机制弹性分布式数据集(RDD)作为 Spark 最根本的数据抽象,是只读的分区记录(Partition)的集合,只能基于在稳定物理存储中的数据集上创建,或者在其他已有的 RDD 上执行转换(Transforma转载 2017-04-06 20:00:23 · 554 阅读 · 0 评论 -
Spark:超越Hadoop MapReduce
引言:和 Hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。 本文选自《SparkGraphX实战》。 大数据对一些数据科学团队来说是 主要的挑战,因为在要求的可扩展性方面单机没有能力和容量来运行大规模数据处 理。此外,即使专为大数据转载 2017-04-13 20:20:16 · 2419 阅读 · 0 评论 -
《Spark1.6.1 官方文档》机器学习库(MLlib)指南
《Spark 官方文档》机器学习库(MLlib)指南spark-1.6.1机器学习库(MLlib)指南MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。MLllib目前分为两个代码包:转载 2017-04-09 17:17:44 · 649 阅读 · 0 评论 -
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势 小数点 2017-03-06 18:28:43 大数据技术 评论(0)摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。转载 2017-03-07 18:41:02 · 562 阅读 · 0 评论 -
使用Spark Streaming + Elasticsearch搭建高可用、可扩展的App异常监控平台
问题导读:1.怎样对iOS的Crash Log进行符号化处理?2.怎样解决ES的写入瓶颈问题?3.怎样做到高性能和可扩展?如果在使用App时遇到闪退,你可能会选择卸载App、到应用商店怒斥开发者等方式来表达不满。但开发者也同样感到头疼,因为崩溃可能意味着用户流失、营收下滑。为了降低崩溃率,进而提升App质量,App开发团队需要实时转载 2017-03-05 20:15:24 · 2131 阅读 · 0 评论 -
Spark 低配版高斯朴素贝叶斯实现
Motivation 最近有项目用到Scikit-learn上的高斯朴素贝叶斯模型(简称GNB),随着数据量增大,单机上跑GNB肯定会很慢,所以打算转Spark上。然后发现MLlib并没有实现GNB,自己动手,丰衣足食~原理 GNB的原理是基于朴素贝叶斯,所以先交代朴素贝叶斯的原理。朴素贝叶斯贝叶斯公式P(Y∣X)=P(X∣Y)∗P(Y)P(X) 利用转载 2017-01-27 18:35:13 · 673 阅读 · 0 评论 -
Spark-MLlib实例——决策树
Spark-MLlib实例——决策树通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:[plain] view plain copy 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。转载 2017-02-18 18:09:02 · 1900 阅读 · 0 评论 -
揭开Spark Streaming神秘面纱② - ReceiverTracker 与数据导入
问题导读:1.streaming application 如何兼容众多数据源?2.receivers 是如何分发并启动的?3.receiver 接收到的数据是如何流转的? Spark Streaming 在数据接收与导入方面需要满足有以下三个特点:兼容众多输入源,包括HDFS, Flume, Kafka, Twitter and Zero转载 2016-03-27 16:05:48 · 793 阅读 · 0 评论