bigdata
文章平均质量分 74
Bro_Rabbit
修猿之路
展开
-
[笔记迁移][Hadoop][4]HDFS Shell(了解)
基本格式hadoop fs [参数] 路径常用参数:-ls ; -get ; -put ; -cat …注:在hadoop命令中,"/“表示根路径,即"hdfs:// … : … /”命令效果/说明hadoop fs -ls属主用户前面的1表示集群中的副本数,即fs.replicationhadoop fs -chown [user:group] pathHa...原创 2018-10-12 09:07:12 · 152 阅读 · 0 评论 -
[笔记迁移][Spark][4]RDD——分布式弹性数据集相关1
文章目录一、创建RDD二、操作RDD:两类算子一、创建RDDSpark Core(代替MR,进行离线批处理操作)提供了三种创建RDD的方式:创建方式应用场景使用程序种的集合创建主要用于测试,在实际部署到集群运行之前,通过集合构造测试数据集,来测试Spark应用的流程使用本地文件创建主要用于临时性地处理一些存储大量数据地文件使用HDFS文件创建最常用地...原创 2019-07-08 14:23:56 · 143 阅读 · 0 评论 -
[笔记迁移][Spark][5]RDD——分布式弹性数据集相关2
紧接着RDD——分布式弹性数据集相关1,首先补充高级算子cogroup(8) 高级算子 cogroup,与join算子的两点不同之处:[1] join算子将两个RDD按Key连接,结果形成一条条的记录,而cogroup将两个RDD按Key连接后,若相同的Key对应着多条记录,则将记录进行归并。返回JavaPairRDD中的元素形式为<公用键,Tuple2<调用RDD中的值的可迭代容...原创 2019-07-08 15:27:34 · 112 阅读 · 0 评论 -
[笔记迁移][Spark][6]RDD持久化
文章目录1. 为什么RDD需要持久化?2. 节点如何持久化?3. 如何操作持久化?4. Demo5. 持久化策略——persist()参数StorageLevel指定1. 为什么RDD需要持久化?RDD持久化解决的问题: 每当Action操作执行,其之前的Transformation才会被触发,形成RDD链条。Action操作完成后,该RDD会被...原创 2019-07-16 10:03:15 · 179 阅读 · 0 评论 -
[笔记迁移][Spark][10]Spark源码——内核架构3
文章目录7. Job(initialized after SparkContext)7. Job(initialized after SparkContext)(1)一个Application可能包含多个Job,一个Action触发一个Job,运行完前一个Job,代码才会继续向下,触发下一个Job(2)以wordCount为例:textFile -> flatMap(基类RDD中定义)...原创 2019-07-18 14:21:27 · 155 阅读 · 0 评论 -
[笔记迁移][Spark][7]共享变量:Broadcast Variable & Accumulator
文章目录1. 概述2. Broadcast Variable3. Accumulator1. 概述 默认情况下,若在一个算子函数中使用到了来自外部的某个变量,则该变量的值会被拷贝到每个Task中,此时每个Task只能操作自己获得的副本,而无法实现多个Task间的共享。 Spark为此提供了两种共享变量...原创 2019-07-16 11:00:16 · 88 阅读 · 0 评论 -
[笔记迁移][Spark][8]常见应用案例
说明:部分示例在练习中使用了两种实现文章目录1. 基于排序机制的wordcount2. 二次排序(ORDER BY col1,col2)3.TOPN1. 基于排序机制的wordcount/** * 基于排序机制的 wordcount * 需求: * 1. 对文本文件内出现的每个单词统计出其出现的次数 * 2. 按照每个单词出现次数降序排序 * @author Z -Jay * ...原创 2019-07-16 11:39:06 · 116 阅读 · 0 评论 -
[笔记迁移][Spark][11]Spark源码——内核架构4
文章目录8. TaskScheduler——分发Task至Executor9. Executor8. TaskScheduler——分发Task至Executor /** * TaskScheduler提交Task的入口 */ override def submitTasks (taskSet : TaskSet) { val tasks = taskSet.task...原创 2019-07-18 16:13:29 · 222 阅读 · 0 评论 -
[笔记迁移][Spark][8] Spark源码——内核架构1
文章目录1.宏观概览2.窄依赖与宽依赖3.基于Yarn的两种提交模式4. SparkContext5. Master1.宏观概览Applicationspark-submitDriverSparkContextMasterWorkerExecutorJobDAGSchedulerTaskSchedulerShuffleMap TaskResult Task2.窄依...原创 2019-07-17 09:11:28 · 290 阅读 · 0 评论 -
[笔记迁移][Spark][12]Spark源码——内核架构5
文章目录11. Shuffle(最最最最最重要,重点出错、调优目标)11. Shuffle(最最最最最重要,重点出错、调优目标)(1)发生时机: 与Tuple的key操作相关,包括reduceByKey/ groupByKey/ sortByKey/ countByKey/ join/ cogroup(2)特点: &nb...原创 2019-07-24 11:14:25 · 330 阅读 · 0 评论 -
[笔记迁移][Spark][13]Spark源码——内核架构6
文章目录14. CheckPoint14. CheckPoint适用场景:自定义Spark应用程序特别复杂,从初始RDD到整个应用完成有很多步骤,比如超过20个Transformation操作,而且整个应用运行的时间也特别长,比如1-5小时。为什么:对于特别复杂的Spark应用,很有可能需要重复使用某个RDD,若因为节点故障,导致先前持久化过的数据丢失,当再一次使用到该RDD时,就可能又要...原创 2019-07-24 13:31:58 · 419 阅读 · 0 评论 -
[笔记迁移][Spark][9]Spark源码——内核架构2
续上篇,Spark源码——内核架构1(4)最最最最最重要的机制:资源调度schedule() [1]Master总调度——Driver(on Worker)调度机制 /** * Schedule the currently available resources among waiting apps. This method will be call...原创 2019-07-17 17:24:49 · 226 阅读 · 0 评论 -
[笔记迁移][Spark][3]Spark基本工作原理与RDD初探
文章目录一、Spark粗粒度架构一、Spark粗粒度架构原创 2019-07-08 14:22:31 · 340 阅读 · 0 评论 -
[笔记迁移][Spark][2]Spark概述
Spark的核心,即一种新型的大数据计算框架(通用的大数据快速处理引擎),可以基于Hadoop上存储(hdfs、Hive)的大数据进行计算Spark代替Hadoop? No!!!Spark能够替代的只是Hadoop的一部分,如MapReduce计算框架,Hive查询引擎。Spark本身不提供大数据存储功能和调度功能!Spark主要基于内存进行计算, 较基于磁盘和网络的MapRe...原创 2019-07-08 14:20:51 · 116 阅读 · 0 评论 -
[笔记迁移][Hadoop][5]HDFS的Java客户端(Linux环境)
导入HDFS的核心jar以及依赖lib;common核心jar及依赖lib导入core-site.xml以读取fs.defaultFS,否则将获取Linux文件系统ext;hdfs-site.xml读取replication操作HDFS千必须声明FileSystem (Abstract class) 的引用/* 读取配置文件xxx-site.xml 可以对conf中的配置项进行手动set...原创 2018-10-12 09:44:03 · 204 阅读 · 0 评论 -
[笔记迁移][Hadoop][6]HDFS客户端实现机制及源码调用(了解)
底层依赖:RPC( Remote Procedure Call )一般远程过程调用简单示意RPC是远程过程调用的一种实现,在Hadoop中用于节点间的远程通信(如client&amp;lt;-&amp;gt;NameNode, NameNode&amp;lt;-&amp;gt;DataNode)实现:动态代理+反射+socket简单使用RPC Demo(1)Client 和 Server 导入 co...原创 2018-10-12 10:29:21 · 133 阅读 · 0 评论 -
[笔记迁移][Hadoop][7]MapReduce原理及规范
一、基本原理1.引入 : log count2.Example : words count二、规范通用规范数据通过网络在节点之间传输需要序列化,但JDK自带序列化冗余。为提高海量键值对的传输,Hadoop实现了精简序列化类型:LongWritable(Long), Text(String), NulWritable(Null NullWritable.get())Map规...原创 2018-10-15 13:51:54 · 771 阅读 · 0 评论 -
[笔记迁移][Hadoop][8]YARN原理
一、基本原理YARN不懂运算模型,具有 通用性 ,不管是MapReduce, Spark, Storm 只要有符合规范的AppMaster,YARN就能启动分配与调度机制-&gt;底层解耦NodeManager执行MapReduce任务细节:二、运行模式的关键:RunJar进程本地模式( 本地JVM For Debug )与集群模式( YARN JVM For Use )运行模...原创 2018-10-15 14:23:32 · 151 阅读 · 0 评论 -
[笔记迁移][Hadoop-Zookeeper][9]ZooKeeper(HA的前提)
一、概述Hadoop生态的分布式协调服务组件,基于对Paxos算法的实现,包含一个简单的原语集,分布式应用程序可以基于它实现一致性的同步服务,配置维护和命名服务等几点细节说明(1) Leader 是一个主节点,所有数据的写操作都是经由Leader实现的。客户端先更新Leader上的数据,Leader通知其他的Follower更新这份数据,且有半数以上的Follower更新成功就认为本次...原创 2018-10-15 20:10:48 · 154 阅读 · 0 评论 -
[笔记迁移][Hadoop][1]了解Hadoop
1. Hadoop本身用于海量日志分析,现已成大数据生态体系代表。2. HDFS 原理概述(1)将一个文件分割成数据块,存储于不同的DataNode上。(2)NameNode存储数据块索引,维持数据块链。(3)客户端不论读写都要先访问NameNode。(4)原理概述对于客户端来说,读/写(get/put)都是指定一个URI(“虚拟工作目录”),这个URI正好是Na...原创 2018-10-09 19:35:41 · 167 阅读 · 0 评论 -
[笔记迁移][Hadoop][2]HDFS原理
1. 基本原理引入:以写操作为例*防裂说明*:Client从字节流中仅按配置文件切块,不做其他任何改动(实际传输过程中,一个Block被切分为多个Packet,到达目标位置是再“拼装”为Block); Client写入blk_x的第一份副本给某个 DataNode后,继续写blk_x+1的第一份副本给某个DataNode,blk_x的n份副本由第一份副本所在DataNode拷贝(pi...原创 2018-10-09 21:03:37 · 180 阅读 · 0 评论 -
[笔记迁移][Hadoop][10]HA集群搭建
节点规划方案-(NameNode+ZKFC)*2-(Zookeeper+JournalNode+DataNode+NodeManager)注:DataNode与NodeManager最好放在一起,符合 “数据不动,计算移动” 的原则-ResourceManager*2具体分配如图:修改配置文件(Hadoop01,NameNode+ZKFC主机)(1)core-site.xml&amp;l...原创 2018-10-22 09:26:29 · 174 阅读 · 0 评论 -
[笔记迁移][Hadoop][3]伪分布式集群搭建
一、Linux的安装与网络基本设置Linux虚拟机安装 [rhel7-Gnome];VM主页-&amp;amp;gt;编辑虚拟机设置-&amp;amp;gt;网络适配器:选择NAT模式;编辑-&amp;amp;gt;虚拟网络编辑器-&amp;amp;gt;VMnet8-&amp;amp;gt;NAT设置:查看子网IP,子网掩码,网关;[Windows物理机] 网络和Internet设置-&原创 2018-10-10 19:31:20 · 142 阅读 · 0 评论 -
[笔记迁移][Hadoop][11]HA测试与特性
若想启动Federation中的双NameNode之一,可以在NamNode节点上执行 hadoop-daemon.sh start namenode 启动该节点。当Federation中的双NameNode中的Active下线,经过"hdfs-site.xml"中设置的ssh超时时长,Standby将顶替成为Activce。上传或下载过程中,若Federation中双Namen...原创 2018-10-22 10:32:09 · 285 阅读 · 0 评论 -
[笔记迁移][Spark][1]Spark环境搭建
一、集群搭建Spark*3+Hadoop*1Linux准备工作(1)安装镜像CentOS6.5-minimal.iso(2)配置ip临时配置:1. ifconfig eth0 192.168.109.191 (192,193)2. ping 192.168.109.19x (自己)3. 修改/etc/hosts,添加“ip/主机”映射4. ping {主机名} (自己)永久配置...原创 2018-11-28 15:08:01 · 172 阅读 · 0 评论 -
[笔记迁移][Spark][14]Spark性能优化
文章目录一、概述二、诊断内存消耗三、高性能序列化类库四、优化数据结构五、对多次使用的RDD进行持久化cache/persist或Checkpoint六、使用序列化的持久化级别七、JVM GC机制调优八、提高并行度九、广播共享数据十、数据本地化十一、redeceByKey()与groupByKey()十二、※Shuffle性能优化※一、概述性能瓶颈:CPU、网络带宽、内存(最集中的问题源)=...原创 2019-07-25 08:34:13 · 142 阅读 · 0 评论