2018年06月_刘媚-海外

原创 Spark Streaming运行原理

spark程序是使用一个spark应用实例一次性对一批历史数据进行处理，spark streaming是将持续不断输入的数据流转换成多个batch分片，使用一批spark应用实例进行处理。...

2018-06-18 14:36:08 3251

原创大数据开发工程师面试题锦集

1、一个网络商城1天大概产生多少G的日志？10GB2、1天大概有多少条日志记录（在不清洗的情况下）？1千万条3、日访问量大概有多少个？几十万个独立访客4、注册数大概多少？不清楚几百万吧5、我们的日志是不是除了apache的访问日志是不是还有其他的日志？log4j日志6、你们的服务器有多少台？几十台7、你们服务器的内存多大？有的8G，有的16G8...

2018-06-17 17:10:01 5268

原创文件很大，内存受限，怎么统计

1. 分而治之/hash映射；2. hash统计；3.堆/归并排序。

2018-06-16 16:57:03 548

原创 ecelipse下开发mapreduce需要导入的Jar包

hadoop-2.7.1/share/hadoop/mapreduce下的所有jar包（子文件夹下的jar包不用）hadoop-2.7.1/share/hadoop/common下的hadoop-common-2.7.1.jarhadoop-2.7.1/share/hadoop/common/lib下的commons-cli-1.2.jar...

2018-06-13 14:32:41 2727

转载 Spark 任务调度之启动CoarseGrainedExecutorBackend

概要本篇博客是Spark 任务调度概述详细流程中的第五部分，介绍CoarseGrainedExecutorBackend的启动。CoarseGrainedExecutorBackend在介绍CoarseGrainedExecutorBackend的启动流程前，先了解下CoarseGrainedExecutorBackend。我们知道Executor负责计算任务，即执行task，而Executor对...

2018-06-12 15:52:31 367

原创 Spark On Yarn搭建

实现步骤：1）搭建好Hadoop（版本，2.7）集群2）安装和配置scala（版本，2.11）上传解压scala-2.11.0.tgz—>配置 /etc/profile文件配置示例：3）在NodeManager节点（04,05,06节点）上安装和配置Spark4）进入Spark安装目录的Conf目录，配置：spark-env.sh 文件配置示例：export JAVA_HOME=/usr/l...

2018-06-11 17:28:59 321

原创 Hadoop2.7集群datanode都起不来解决方案

datanode起不来的原因可以是：进行了namenode格式化操作。每次进行namenode格式化都会清空namenode文件存放目录下的文件并产生一个新的clusterID，但不会清空datanode产生的数据所存放的文件夹目录下的文件，也就是datanode文件存放目录下保存的clusterID还是之前的clusterID，这导致namenode下的clusterID和datanode下的c...

2018-06-11 17:19:25 2910

原创 Hadoop2.7高可用集群搭建步骤

集群节点分配Park01 Zookeeper NameNode (active)Resourcemanager (active) Park02Zookeeper NameNode (standby) Park03Zookeeper ResourceManager (standby) Park04DataNode NodeManager JournalNode Park05DataNodeNod...

2018-06-11 16:57:47 537

原创 HADOOP伪分布式namenode起不来：InconsistentFSStateException

第一步：查看日志文件，报错信息如下：InconsistentFSStateException: Directory /usr/local/src/hadoop-2.7.1-alone/tmp/dfs/name is in an inconsistent state: storage directory does not exist or is not accessible这里的目录既然是在tmp下...

2018-06-08 13:53:22 1121

原创 JVM运行原理

java代码执行流程：① Java源文件—->编译器—->字节码文件② 字节码文件—->JVM—->机器码JVM运行原理核心掌握：JVM内存、GC垃圾回收机制

2018-06-02 17:47:48 178

转载 RDD：spark的核心

RDD是spark的核心，也是整个spark的架构基础，RDD是弹性分布式集合（Resilient Distributed Datasets）的简称，是分布式只读且已分区集合对象。这些集合是弹性的，如果数据集一部分丢失，则可以对它们进行重建。具有自动容错、位置感知调度和可伸缩性，而容错性是最难实现的，大多数分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。对于大规模数据分析系统，数据检查...

2018-06-01 18:02:26 203

原创 Spark性能调优

对需要重复计算的才使用 cache, 同时及时释放掉(unpersist)不再需要使用的 RDD避免使用 shuffle 运算.需要的时候尽量选取较优方案合理配置 Executor/Task/core 的参数,合理分配持久化/ shuffle的内存占比： driver-memory: 1Gexecutor-memory: 4~8G(根据实际需求来)num-executors: 50~100e...

2018-06-01 12:22:57 121

weixin_41070431的博客