自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Spark Streaming运行原理

spark程序是使用一个spark应用实例一次性对一批历史数据进行处理,spark streaming是将持续不断输入的数据流转换成多个batch分片,使用一批spark应用实例进行处理。...

2018-06-18 14:36:08 3251

原创 大数据开发工程师面试题锦集

1、一个网络商城1天大概产生多少G的日志?10GB2、1天大概有多少条日志记录(在不清洗的情况下)?1千万条3、日访问量大概有多少个?几十万个独立访客4、注册数大概多少?不清楚几百万吧5、我们的日志是不是除了apache的访问日志是不是还有其他的日志?log4j日志6、你们的服务器有多少台?几十台7、你们服务器的内存多大?有的8G,有的16G8...

2018-06-17 17:10:01 5268

原创 文件很大,内存受限, 怎么统计

1. 分而治之/hash映射;2. hash统计;3.堆/归并排序。

2018-06-16 16:57:03 548

原创 ecelipse下开发mapreduce需要导入的Jar包

hadoop-2.7.1/share/hadoop/mapreduce下的所有jar包(子文件夹下的jar包不用)hadoop-2.7.1/share/hadoop/common下的hadoop-common-2.7.1.jarhadoop-2.7.1/share/hadoop/common/lib下的commons-cli-1.2.jar...

2018-06-13 14:32:41 2727

转载 Spark 任务调度之启动CoarseGrainedExecutorBackend

概要本篇博客是Spark 任务调度概述详细流程中的第五部分,介绍CoarseGrainedExecutorBackend的启动。CoarseGrainedExecutorBackend在介绍CoarseGrainedExecutorBackend的启动流程前,先了解下CoarseGrainedExecutorBackend。我们知道Executor负责计算任务,即执行task,而Executor对...

2018-06-12 15:52:31 367

原创 Spark On Yarn搭建

实现步骤:1)搭建好Hadoop(版本,2.7)集群2)安装和配置scala(版本,2.11)上传解压scala-2.11.0.tgz—>配置 /etc/profile文件配置示例:3)在NodeManager节点(04,05,06节点)上安装和配置Spark4)进入Spark安装目录的Conf目录,配置:spark-env.sh 文件配置示例:export JAVA_HOME=/usr/l...

2018-06-11 17:28:59 321

原创 Hadoop2.7集群datanode都起不来解决方案

datanode起不来的原因可以是:进行了namenode格式化操作。每次进行namenode格式化都会清空namenode文件存放目录下的文件并产生一个新的clusterID,但不会清空datanode产生的数据所存放的文件夹目录下的文件,也就是datanode文件存放目录下保存的clusterID还是之前的clusterID,这导致namenode下的clusterID和datanode下的c...

2018-06-11 17:19:25 2910

原创 Hadoop2.7高可用集群搭建步骤

集群节点分配Park01 Zookeeper  NameNode (active)Resourcemanager (active) Park02Zookeeper NameNode (standby)  Park03Zookeeper ResourceManager (standby) Park04DataNode NodeManager JournalNode Park05DataNodeNod...

2018-06-11 16:57:47 537

原创 HADOOP伪分布式namenode起不来:InconsistentFSStateException

第一步:查看日志文件,报错信息如下:InconsistentFSStateException: Directory /usr/local/src/hadoop-2.7.1-alone/tmp/dfs/name is in an inconsistent state: storage directory does not exist or is not accessible这里的目录既然是在tmp下...

2018-06-08 13:53:22 1121

原创 JVM运行原理

java代码执行流程:① Java源文件—->编译器—->字节码文件② 字节码文件—->JVM—->机器码JVM运行原理核心掌握:JVM内存、GC垃圾回收机制

2018-06-02 17:47:48 178

转载 RDD:spark的核心

RDD是spark的核心,也是整个spark的架构基础,RDD是弹性分布式集合(Resilient Distributed Datasets)的简称,是分布式只读且已分区集合对象。这些集合是弹性的,如果数据集一部分丢失,则可以对它们进行重建。具有自动容错、位置感知调度和可伸缩性,而容错性是最难实现的,大多数分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。对于大规模数据分析系统,数据检查...

2018-06-01 18:02:26 203

原创 Spark性能调优

对需要重复计算的才使用 cache, 同时及时释放掉(unpersist)不再需要使用的 RDD避免使用 shuffle 运算.需要的时候尽量选取较优方案合理配置 Executor/Task/core 的参数,合理分配持久化/ shuffle的内存占比:    driver-memory: 1Gexecutor-memory: 4~8G(根据实际需求来)num-executors: 50~100e...

2018-06-01 12:22:57 121

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除