大数据
Xeon-Shao
这个作者很懒,什么都没留下…
展开
-
windows下elasticsearch安装完无法访问9200的问题
注:Elasticsearch最低要求JDK1.8,下载地址:https://www.elastic.co/cn/downloads/elasticsearch。在 /config/elasticsearch.yml 文件中把xpack.security.http.ssl:enabled设置成false即可。问题描述:windows系统下启动成功,但无法访问http://localhost:9200/发现访问http://localhost:9200/无法访问。原因是是因为开启了 ssl认证。转载 2024-07-25 16:59:50 · 241 阅读 · 0 评论 -
如何修改ElasticSearch的密码
修改ES密码的详细步骤转载 2022-06-29 19:09:13 · 8725 阅读 · 0 评论 -
spark应用程序的运行架构(简单到复杂)
几个基本概念:(1)job:包含多个task组成的并行计算,往往由action催生。(2)stage:job的调度单位。(3)task:被送到某个executor上的工作单元。(4)taskSet:一组关联的,相互之间没有shuffle依赖关系的任务组成的任务集。一个应用程序由一个driver program和多个job构成。一个job由多个stage组成。转载 2016-05-27 17:57:42 · 680 阅读 · 0 评论 -
Spark API 详解/大白话解释 之 map、mapPartitions、mapValues、mapWith、flatMap、flatMapWith、flatMapValues
重点看mapPartitionsmap(function) map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。举例:val a = sc.parallelize(1 to 9, 3)val b = a.map(x => x*2)//x => x*2是一个函数,x是传入参数即RDD的每个元素,x转载 2016-04-20 11:08:59 · 2357 阅读 · 0 评论 -
通过代码实例来说明spark api mapPartitions和mapPartitionsWithIndex的使用
代码片段1:package com.oreilly.learningsparkexamples.scalaimport org.apache.spark._import org.eclipse.jetty.client.ContentExchangeimport org.eclipse.jetty.client.HttpClientobject BasicMapParti转载 2016-04-20 11:10:42 · 1536 阅读 · 0 评论 -
Spark 【数据挖掘平台介绍】 - Spark 1.1.0(看范式粒度)
一:Spark Spark已正式申请加入Apache孵化器,从灵机一闪的实验室“电火花”成长为大数据技术平台中异军突起的新锐。本文主要讲述Spark的设计思想。Spark如其名,展现了大数据不常见的“电光石火”。具体特点概括为“轻、快、灵和巧”。轻:Spark 0.6核心代码有2万行,Hadoop 1.0为9万行,2.0为22万行。一方面,感谢转载 2016-05-24 21:15:15 · 1071 阅读 · 0 评论 -
【Spark】Spark应用执行机制
Spark应用概念Spark应用(Application)是用户提交的应用程序。执行模式又Local、Standalone、YARN、Mesos。根据Spark Application的Driver Program是否在集群中运行,Spark应用的运行方式又可以分为Cluster模式和Client模式。下面是Spark应用涉及的一些基本概念:Application:Spark转载 2016-03-26 21:22:48 · 801 阅读 · 0 评论 -
【Spark】Spark基本概念
Spark专用名词RDD —- resillient distributed dataset 弹性分布式数据集Operation —- 作用于RDD的各种操作分为transformation和actionJob —- 作业,一个JOB包含多个RDD及作用于相应RDD上的各种operationStage —- 一个作业分为多个阶段Partition —- 数据分区, 一个RDD中的数据可以分转载 2016-03-26 21:19:20 · 493 阅读 · 0 评论 -
spark-OutOfMemory:GC overhead limit exceeded 解决,timelimitexceeded
今天准备跑自己的spark程序,但是运行过程中遇到了OutOfMemory:GC overhead limit exceeded的错误。原以为是数据集太大,google了一番,以为是内存不够了,但是在webui一看其实数据集好像也不是很大,但是还是尝试提高了内存配置,通过提高spark.executor.memory和spark.shuffle.memoryFraction,降低spark转载 2016-03-26 21:13:36 · 5514 阅读 · 0 评论 -
Spark 性能相关参数配置详解-任务调度篇
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。转载 2016-03-25 21:19:56 · 474 阅读 · 0 评论 -
Spark 性能相关参数配置详解-Storage篇
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。转载 2016-03-25 21:05:08 · 510 阅读 · 0 评论 -
Spark 性能相关参数配置详解-shuffle篇
作者:刘旭晖 Raymond 转载请注明出处Email:colorant at 163.comBLOG:http://blog.csdn.net/colorant/随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configurat转载 2016-03-25 20:52:15 · 546 阅读 · 1 评论 -
Spark Shuffle系列-----1. Spark Shuffle与任务调度之间的关系
本文转自http://blog.csdn.net/u012684933/article/details/49074185,所有权力归原作者所有,仅供学习。Spark根据RDD间的依赖关系是否是Shuffle依赖进行Stage的划分,为了说明问题在这里先执行的Stage标记为Stage1,后执行的Stage标记为Stage2。Shuffle分2步操作 Map操作和Recude操转载 2016-04-24 09:36:27 · 848 阅读 · 0 评论 -
【文章收藏】阿里云破了四个世界纪录
10月28日,SortBenchmark在官方网站公布了2015年排序竞赛的最终成绩。阿里云用不到7分钟(377秒)就完成了100TB的数据排序,打破了ApacheSpark的纪录23.4分钟。SortBenchmark是全球科技公司的计算奥运会,更早之前Hadoop的纪录是72分钟。SortBenchmark的排序竞赛包含4项比赛,其中GraySort和MinuteSort主要评测计算系转载 2016-10-28 14:38:20 · 497 阅读 · 0 评论 -
如何使用intellij搭建spark开发环境(下)
本文转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB%BAspark%E5%BC%80%E5%8F%91%E7%8E%AF%E5%A2%83%EF%BC%88%E4%B8%8B%EF%BC%89/,所有权力归原作者所有。(吐槽一句,CSDN这个排版也是...原创 2015-07-08 11:26:01 · 1424 阅读 · 0 评论 -
如何使用IntelliJ IDEA搭建spark开发环境(上)
本文部分转自http://www.beanmoon.com/2014/10/11/%E5%A6%82%E4%BD%95%E4%BD%BF%E7%94%A8intellij%E6%90%AD%E5%BB%BAspark%E5%BC%80%E5%8F%91%E7%8E%AF%E5%A2%83/,其中有自己在实践中遇到的一些问题的记录,仅用来学习记录,所有权利归原作者所有。现在这个网址已经访问不了了...原创 2015-07-08 11:22:12 · 4237 阅读 · 0 评论 -
Flume监控几种方式
Flume主要有以下集中监控方式:1.JMX监控配置 {$FLUME_HOME}/flume-env.shcd $FLUME_HOMEvi flume-env.shJAVA_OPTS="-Dcom.sun.management.jmxremote \ -Dcom.sun.management.jmxremote.authenticate=false \ -Dcom.su转载 2017-11-08 10:16:47 · 3320 阅读 · 0 评论 -
Spark面对OOM问题的解决方法及优化总结
转载请保持完整性并注明来源链接: http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后转载 2017-09-16 19:58:20 · 368 阅读 · 0 评论 -
Spark自定义分区(Partitioner)
我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略(这两种分区的代码解析可以参见:《Spark分区器HashPartitioner和RangePartitioner代码详解》),这两种分区策略在很多情况下都适合我们的场景。但是有些情况下,Spark内部不能符合咱们的需求,这时候我们就可以自定义分区策略。为此,Spark提供了相应的接口,我们只转载 2017-09-16 19:33:55 · 777 阅读 · 0 评论 -
RDD Join 性能调优
阅读本篇博文时,请先理解RDD的描述及作业调度:[《深入理解Spark 2.1 Core (一):RDD的原理与源码分析 》](http://blog.csdn.net/u011239443/article/details/53894611#t16)Join数据是我们在Spark操作中的很重要的一部分。Spark Core 和Spark SQL的基本类型都支持join操作。虽然join很常转载 2017-09-16 19:29:50 · 489 阅读 · 0 评论 -
Spark数据本地性
分布式计算系统的精粹在于移动计算而非移动数据,但是在实际的计算过程中,总存在着移动数据的情况,除非是在集群的所有节点上都保存数据的副本。移动数据,将数据从一个节点移动到另一个节点进行计算,不但消耗了网络IO,也消耗了磁盘IO,降低了整个计算的效率。为了提高数据的本地性,除了优化算法(也就是修改spark内存,难度有点高),就是合理设置数据的副本。设置数据的副本,这需要通过配置参数并长期观察运行状态转载 2016-12-28 16:54:57 · 1193 阅读 · 0 评论 -
关于SPARK_WORKER_MEMORY和SPARK_MEM
在spark中最容易混淆的是各种内存关系。本篇讲述一下SPARK_WORKER_MEMORY和SPARK_MEM。SPARK_WORKER_MEMORY是计算节点worker所能支配的内存,各个节点可以根据实际物理内存的大小,通过配置conf/spark-env.sh来分配内存给该节点的worker进程使用。在spark standalone集群中,如果各节点的物理配置不一样,co转载 2017-09-16 10:36:35 · 3969 阅读 · 0 评论 -
区块链与大数据究竟有着怎样的关系?
今天,很多人还没弄懂大数据,区块链又来了。区块链与大数据究竟有着怎样的关系?看完本文的五大观点,你会认同赛智时代的这个结论:区块链让大数据汹涌而来。本文转自http://www.raincent.com/content-10-7207-1.html,所有权力归原作者所有。马云说过,这是一个变化的年代,当很多人还没有搞懂PC互联网的时候,移动互联网来了,当很多人还没弄懂移动互联网转载 2017-02-24 14:03:34 · 5135 阅读 · 2 评论 -
Spark入门实战系列--4.Spark运行架构
注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取 1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:S转载 2016-12-28 16:57:46 · 502 阅读 · 0 评论 -
Shufflling and repartitioning of RDD’s in apache spark
To write the optimize spark application you should carefully use transformation and actions, if you use wrong transformation and action will make your application slow. So when you are writing applic转载 2016-03-23 08:54:59 · 682 阅读 · 0 评论 -
Performance Tuning Tips for Running Spark Applications(重点:数据序列化)
Based on what I have read and experimented so far, I have provided some key factors that can impact the performance of Apache Spark applications, specifically spark streaming. Concurrency and memory转载 2016-03-21 14:30:19 · 755 阅读 · 0 评论 -
Spark之性能优化(重点:并行流数据接收)
问题导读1、如何减少批数据的执行时间?2、Spark有哪些方面的性能优化?3、有哪些错误我们需要关心?(一)减少批数据的执行时间在Spark中有几个优化可以减少批处理的时间。这些可以在优化指南中作了讨论。这节重点讨论几个重要的。数据接收的并行水平通过网络(如kafka,flume,socket等)接收数据需要这些数据反序列化并被保存到转载 2016-03-21 09:41:59 · 6884 阅读 · 0 评论 -
在Windows上编译Spark源码
原文转自http://my.oschina.net/u/1452001/blog/344067?fromerr=1iS9kYnS在本机(Windows 8)上安装spark玩一玩,Spark的Quick Start上没有指明具体步骤,自己Build好了之后把步骤记录一下。首先,到Spark的官网上下载Spark的压缩包,然后解压缩到本地文件夹。我下的是Spark 1.1.0原创 2016-01-26 15:57:18 · 1435 阅读 · 0 评论 -
Spark 部署及示例代码讲解
Spark 部署考虑到读者可能使用“ssh secure shell”这样的工具登陆 Linux,所以解释一下如何设置工具支持中文。如何设置 ssh secure shell 支持中文只需要设置下/etc/sysconfig/i18n 文件内容如清单 1 所示。清单 1. 文件内容LANG="zh_CN.GB18030"SUPPORTED="zh_CN.G转载 2016-01-26 15:55:04 · 800 阅读 · 0 评论 -
Spark优化一则 - 减少Shuffle
看了Spark Summit 2014的A Deeper Understanding of Spark Internals,视频(要科学上网)详细讲解了Spark的工作原理,Slides的45页给原始算法和优化算法。破砂锅用自己3节点的Spark集群试验了这个优化算法,并进一步找到更快的算法。测试数据是Sogou实验室的日志文件前10000000条数据。目标是对日志第2列数据,按照第一个字转载 2016-01-26 14:29:29 · 789 阅读 · 0 评论 -
Spark 配置指南
阅读目录应用属性运行时环境Runtime EnvironmentShuffle BehaviorSpark UICompression and SerializationExecution BehaviorNetworkingSchedulingSecuritySpark Streaming集群管理器Cluster Managers目录 [−]Spark转载 2016-01-26 14:25:44 · 857 阅读 · 0 评论 -
Spark源码分析:多种部署方式之间的区别与联系
作者:过往记忆从官方的文档我们可以知道, Spark 的部署方式有很多种:local、Standalone、Mesos、YARN…..不同部署方式的后台处理进程是不一样的,但是如果我们从代码的角度来看,其实流程都差不多。从代码中,我们可以得知其实Spark的部署方式其实比官方文档中介绍的还要多,这里我来列举一下:1、local:这种方式是在本地启转载 2016-01-26 11:25:16 · 614 阅读 · 0 评论 -
Spark编译报错问题日志记录
能生成spark-assembly-1.5.1-hadoop2.6.0.jar之后报错[warn] Strategy 'discard' was applied to 3 files[warn] Strategy 'first' was applied to 247 files[info] Assembly up to date: D:\dev\spark-1.5.1\assembly原创 2016-01-26 10:20:22 · 1119 阅读 · 0 评论 -
Spark shuffle:hash和sort性能对比
我们都知道Hadoop中的shuffle(不知道原理?可以参见《MapReduce:详细介绍Shuffle的执行过程》),Hadoop中的shuffle是连接map和reduce之间的桥梁,它是基于排序的。同样,在Spark中也是存在shuffle,Spark 1.1之前,Spark的shuffle只存在一种方式实现方式,也就是基于hash的。而在最新的Spark 1.1.0版本中引进了新的s转载 2016-01-26 08:26:37 · 1188 阅读 · 0 评论 -
彻底理解MapReduce shuffle过程原理
MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据转载 2016-01-22 17:03:28 · 2569 阅读 · 0 评论 -
Hadoop1.x中HDFS工作原理
HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(Google File System)Google 文件系统(中文,英文)。HDFS有很多特点: ① 保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。 ② 运行在廉价的机器上。(商用机)转载 2016-01-22 15:18:03 · 478 阅读 · 0 评论 -
Windows + IDEA + SBT 打造Spark源码阅读环境
Spark源码阅读环境的准备Spark源码是有Scala语言写成的,目前,IDEA对Scala的支持要比eclipse要好,大多数人会选在在IDEA上完成Spark平台应用的开发。因此,Spark源码阅读的IDE理所当然的选择了IDEA。本文介绍的是Windows下的各项配置方法(默认已经装了java,JDK)。下面列举搭建此环境需要的各个组件:IDEA,有两个版本转载 2016-01-21 16:49:18 · 702 阅读 · 0 评论 -
spark内核揭秘-14-Spark性能优化的10大问题及其解决方案
问题1:reduce task数目不合适解决方案:需要根据实际情况调整默认配置,调整方式是修改参数spark.default.parallelism。通常的,reduce数目设置为core数目的2-3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太小,任务运行缓慢。所以要合理修改reduce的task数目即spark.default.parallelism问题2:s转载 2016-01-26 16:36:11 · 495 阅读 · 0 评论 -
Spark算子:RDD键值转换操作(2)–combineByKey、foldByKey
combineByKeydef combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) =>转载 2016-01-28 09:28:43 · 805 阅读 · 0 评论 -
Spark的性能调优
下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。基本概念和原则首先,要搞清楚Spark的几个基本概念和原则,否则系统的性能调优无从谈起:每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面去执行。Stage指的是一组并行运行转载 2016-01-28 09:31:40 · 545 阅读 · 0 评论