计算机 云计算
算法小白_gyl
这个作者很懒,什么都没留下…
展开
-
Ubuntu docker spark集群部署
docker spark 一键部署 # 首先下载docker脚本 >git clonegit@github.com:amplab/docker-scripts.git 切换路径到docker-scripts 分别运行脚本加载spark相关镜像 >./apache-hadoop-hdfs-precise/build >./dnsmasq-precise/build >./s转载 2016-04-23 10:49:26 · 432 阅读 · 0 评论 -
一文学会使用Scala
IntroduceScala上一门纯面向对象的函数式编程语言,其主要贡献以及备受欢迎大概是因为其是Spark的开发语言(个人观点)。1.Scala 语言具有一下特性: • 面向对象特性 • 函数式编程 • 静态类型 • 扩展性 • 并发性 2.语法基础:Scala:执行可以是交互模式,亦可脚本模式语法: •区分大小写 •类名称:首字母大写,一般命...原创 2018-03-09 16:05:42 · 232 阅读 · 0 评论 -
Spark-job计算之——数据倾斜问题
spark在大数据处理各项业务中扮演着越来越重要的角色,基于内存的计算方式,处理任务效率高。但是由于业务问题和程序处理问题,有时会遇到各种各样的问题,其中包含数据倾斜,任务倾斜,GC等各种问题。本文主要根据个人在业务数据处理中遇到的数据倾斜问题以及解决方法。本文是对数据倾斜问题的一点个人认识和总结,希望能对各位有点帮助,于此同时,本人是大数据算法方面的新人,行文处如存在任何不足和缺陷请各位...原创 2018-05-04 23:07:41 · 367 阅读 · 1 评论 -
spark 资源优化之道
在spark job执行中,我们通常会遇到这样那样的奇怪问题。该节主要介绍开发部署中遇到的一些资源分配问题。 如:资源不足,资源分配过多,队列紧张等很多很多问题。 在工程实践中,我们都希望自己的job 能够以最快的速度,最优的流程执行,以提高我们效率。于是乎我们往往在spark job提交的配置脚本中配置的job的资源越多越好,这就带来的一个问题,集群资源有限,可用资源不能够满足大资源的job...原创 2018-07-31 20:18:50 · 212 阅读 · 0 评论 -
Spark 问题汇总
在大数据领域,spark 是一个比较受欢迎的大数据处理平台,但是由于数据量过大等一系列问题,造成任务执行不成功,现在总结个人在工程实践中遇到的一些个奇葩问题. 1.数据倾斜问题 现象: 1.可能会报资源不足,内存溢出 2.大部分task 均执行完,只有少数几个task始终在执行中 3. 2.Kyro 序列化问题 现象: 1.报异常: | org.apache.spark.SparkExcepti...原创 2019-06-05 17:57:50 · 522 阅读 · 0 评论