2018年06月_二百四十九先森

12月 11月 09月 08月 07月 06月 04月 03月 02月 01月

原创 spark on yarn时的spark-submit参数详细剖析

1、spark sql内置函数的使用需求：求每天的销售额时间消费金额顾客名"2018-01-01, 50, 1111""2018-01-01, 60, 2222""2018-01-01, 70, 3333""2018-01-02, 150, ...

2018-06-08 21:06:38 3394

原创 Spark从入门到精通第十七课：SparkStreaming 对比Storm && SparkStreaming的核心算子

1、SparkStreaming && Storm的区别？答： SparkStreaming 是微批处理，不是真正的实时，它的实时性取决于自定义的间隔是多大。 Storm是真正意义上的实时处理，因为它是一条一条处理数据的。但Storm的吞吐量比起SparkStreaming是要小很多的。 SparkStreaming依托于Spark,所以Spar...

2018-06-08 17:47:59 295

原创 Spark从入门到精通第十六课：Spark SQL的udf函数和udaf函数 && 开窗函数

UDF函数的使用package com.lirongimport org.apache.spark.sql.{DataFrame, SparkSession}/** * 本类主要演示udf函数的注册和使用 */object SparkTest { def main(args: Array[String]): Unit = { val ss: SparkSess...

2018-06-08 11:52:15 539

转载 Spark性能优化指南——高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证Spark作业的...

2018-06-06 15:24:03 318

转载 Spark on Yarn 和MapReduce on Yarn对比

Apache Spark的高性能一定程度上取决于它采用的异步并发模型（这里指server/driver端采用的模型），这与Hadoop 2.0（包括YARN和MapReduce）是一致的。Hadoop 2.0自己实现了类似Actor的异步并发模型，实现方式是epoll+状态机，而Apache Spark则直接采用了开源软件Akka，该软件实现了Actor模型，性能非常高。尽管二...

2018-06-05 21:17:19 296

转载 Spark优化指南--------基础篇

在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更快、性能...

2018-06-05 15:52:57 274

转载 Spark分区数详解

spark.default.parallelism：（默认的并发数）= 2当配置文件spark-default.conf中没有显示的配置，则按照如下规则取值：1、本地模式（不会启动executor，由SparkSubmit进程生成指定数量的线程数来并发）： spark-shell spark.default.parallelism = 1 spark-shell --mas...

2018-06-04 12:23:17 6284

原创工具类：Spark参数管理工具类

package com.lirong.util;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;import com.lirong.conf.ConfigurationManager;import com.lirong.constant.Constants;/** ...

2018-06-04 12:09:04 1184

转载 Spark运行模式对比

目前Apache Spark支持三种分布式部署方式，分别是standalone、spark on mesos和 spark on YARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和资源管理，后两种则是未来发展的趋势，部分容错性和资源管理交由统一的资源管理系统完成：让Spark运行在一个通用的资源管理系统之上，这样可以与其他计算框架，比如MapReduce，公用一...

2018-06-04 10:12:26 503

转载 Spark几种运行模式

spark应用执行机制分析前段时间一直在编写指标代码，一直采用的是--deploy-mode client方式开发测试，因此执行没遇到什么问题，但是放到生产上采用--master yarn-cluster方式运行，那问题就开始陆续暴露出来了。因此写一篇文章分析并记录一下spark的几种运行方式。1.spark应用的基本概念spark运行模式分为：Local(本地idea上运行)，Standalon...

2018-06-04 10:09:22 3497

原创 Spark大数据面试题1

1、spark在什么场景比不上MapReduce?Spark 在内存中处理数据，需要很大的内存容量。如果 Spark 与其它资源需求型服务一同运行在YARN 上，又或者数据块太大以至于不能完全读入内存，此时 Spark 的性能就会有很大的降低，此时Spark可能比不上MapReduce。当对数据的操作只是简单的ETL的时候，Spark比不上MapReduce。2、spark sql和sql的区别？...

2018-06-03 10:28:42 5702 1

原创 Hadoop的资源调器-----Yarn的优化

理论基础1、概述一般说yarn的调优，就是指Container的调优，而Container是运行在NM节点上的，而在NM的节点，一般还运行着DN进程（数据本地化），DN+NM两进程不可占据节点的全部内存，一般在75%~85%(不考虑hbase)之间比较合适，对于一台64G内存的机器，生产上可使得DN+NM=54G，DN=4G,NM=50G。 ####hbase内存一般和...

2018-06-02 23:33:52 3462

原创 Hadoop大数据面试题

1、hadoop操作命令mv 对比copy?mv 性能更高，copy会改变时间属性，mv不会。2、操作HDFS有哪几种方式？JAVA API 、Web UI 、Shell3、MR的执行流程（yarn的工作流程、作业执行过程）？客户端提交一个作业，ResourceManager为该作业分配第一个Container,并与对应的NodeManager通信，要求NodeMa...

2018-06-02 13:03:10 1319

转载生产常用yarn命令集锦

原文链接：http://www.aboutyun.com/thread-14930-1-1.html问题导读1.对于Hadoop集群用户有哪些有用的命令？2.打印需要得到Hadoop的jar和所需要的lib包路径使用的什么命令？3.对hadoop集群的管理员有哪些很有用的命令？概述YARN命令是调用bin/yarn脚本文件，如果运行yarn脚本没有带任何参数，则会打印yarn所有命令的描述...

2018-06-02 13:02:04 8162

原创补充MapReduce编程模型及JAVA简单实现WordCount

MapRedu编程模型MR编程模型： 1、map的输出就是reduce的输入。 2、所有的输入和输出都是键值对形式： <k1,v1>:map输入，来自hdfs,k1为每行数据偏移量，v1为该行数据 <k2,v2>:map输出 <k3,v3>:reduce输入，k2==k3,v3是集合，元素为...

2018-06-02 10:43:57 476

转载【调优经典】Map和Reduce 个数的设定经典

一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例：a) 假设input目录下有1个文...

2018-06-02 09:38:07 4114 1

mysql-connector.zip

从5.1.4到6.0.6 的所有版本的连接器：mysql-connector-java-6.0.6.jar

2021-10-27

Python基础教程.doc

Python基础教程.doc基础文档，适用于快速入门，请放心下载。

2019-05-08

mindmaster-cn-7.0-beta.exe

mindmaster-cn-7.0-beta.exe安装包，真实可用，请放心下载。

2019-05-08

PLSQL压缩包

该压缩包直接解压使用即可，不需要任何配置。

2019-03-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人