Hive基础知识 从早期的互联网主流大爆发开始,主要的搜索引擎公司和电子商务公司就一直在和不断增长的数据进行较量。最近,社交网站也遇到了同样的问题。如今,许多组织已经意识到他们所收集的数据是让他们了解他们的用户,提高业务在市场上的表现以及提高基础架构效率的一个宝贵的资源。Hadoop生态系统就是为处理如此大数据集而产生的一个合乎成本效益的解决方案。Hadoop实现了一个特别的计算模型,也就是MapReduce,其...
大数据面试题及答案 Hadoop 相关试题Hive 相关试题1、 hive表关联查询,如何解决数据倾斜的问题? 倾斜原因: map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特点、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。 1)、key分布不均匀; 2)、业务数据本身的特性; 3)、建表时考虑不周; 4)、某些SQL...
分布式文件存储系统架构和原理 架构 如上图所示,HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。 NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间; SecondaryNameNode:是一个小弟,分担大哥namenode的一部分工作量;是NameNode的...
shuffle原理 shuffle阶段又可以分为Map端的shuffle和Reduce端的shuffle。 一、Map端的shuffleMap端会处理输入数据并产生中间结果,这个中间结果会写到本地磁盘,而不是HDFS。每个Map的输出会先写到内存缓冲区中,当写入的数据达到设定的阈值时,系统将会启动一个线程将缓冲区的数据写到磁盘,这个过程叫做spill。在spill写入之前,会先进行二次排序,首先根据数据所属...
大数据处理流程 大数据处理流程1. 数据处理流程网站流量日志数据分析是一个纯粹的数据分析项目,其整体流程基本上就是依据数据的处理流程进行。有以下几个大的步骤:1.1 数据采集 数据采集概念,目前行业会有两种解释:一是数据从无到有的过程(web服务器打印的日志、自定义采集的日志等)叫做数据采集;另一方面也有把通过...
如果某个maptask运行失败怎么处理 常见容错场景分析1.1作业某个任务阻塞了,长时间占用资源不释放1.2在MapTask任务运行完毕,ReduceTask运行过程中,某个MapTask节点挂了,或者某个MapTask结果存放的那磁盘坏掉了1.任务阻塞,长时间占用资源不释放这种问题通常是由于程序bug,数据特性造成的,会让程序阻塞,任务运行停滞不前。在我们表面上看来是任务停滞不前。这种问题经常发生,任务长时间占用着资源不释放...
HDFS读写数据流程 HDFS写数据流程:1.客户端向nd发送文件上传请求 nd检查目录文件是否存在 检查父目录是否存在2.nd向客户端返回是否上传响应3.客户端向nd请求 上传到那个节点(dn)4.nd响应 dn1 dn2 dn3可以上传5.客户端向dn1发送请求 dn1–>dn2–>dn3 建立文件传输管道6.dn1 dn2 dn3 向客户端逐级应答7.客户端将block文件以pac...
HDFS常用命令 (1)-help:输出这个命令参数bin/hdfs dfs -help rm(2)-ls: 显示目录信息hadoop fs -ls /(3)-mkdir:在hdfs上创建目录hadoop fs -mkdir -p /aaa/bbb/cc/dd(4)-moveFromLocal从本地剪切粘贴到hdfshadoop fs - moveFromLocal /home/hado...
kafka集群设置shell脚本一键启动和关闭 前言:最近在做Spark, 做到安装kafka, 安装完想配置一键启动和关闭, 编写启动的脚本执行没问题, 关闭的时候遇到了一些问题 ,上网查资料也只能解决一半, 有些博客写的关闭脚本拿过来用执行不能成功,让同事看好久测试好久也没找出来,最后自己重写一遍就可以了。下面跟大家分享一下经验吧~1.kafka 的config目录下 kafka-server-stop.sh 有些问题,需要先修改一下...
Spark资源调度和任务调度流程 spark运行架构Spark资源调度和任务调度的流程:1、启动集群后,Worker节点会向Master节点汇报资源情况,Master掌握了集群资源情况。2、当Spark提交一个Application后,根据RDD之间的依赖关系将Application形成一个DAG有向无环图。任务提交后,Spark会在Driver端创建两个对象:DAGScheduler和TaskScheduler。3、DA...
RDD的五大属性 - 1) A list of partitions一个分区列表,一个rdd有多个分区,后期spark任务计算是以分区为单位,一个分区就对应上一个task线程。 通过val rdd1=sc.textFile(文件) 如果这个文件大小的block个数小于等于2,它产生的rdd的分区数就是2 如果这个文件大小的block个数大于2,它产生的rdd的分区数跟文件的block相同 - ...
cache/persist/checkpoint区别 cache和persist的区别基于Spark 1.4.1 的源码,可以看到/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */def cache(): this.type = persist()说明是cache()调用了persist(), 想要知道二者的不同还需要看一下persist函数:/*...
Spark-Map和MapPartition的区别 在Spark中有map和mapPartitions算子,处理数据上,有一些区别主要区别:map是对rdd中的每一个元素进行操作;mapPartitions则是对rdd中的每个分区的迭代器进行操作MapPartitions的优点:如果是普通的map,比如一个partition中有1万条数据。ok,那么你的function要执行和计算1万次。使用MapPartitions操作之后,一...
Zookeeper集群设置shell脚本一键启动和关闭 版权声明:本文为博主原创文章,转正请注明出处。 https://blog.csdn.net/OYziqing </div>Zookeeper集群设置shell脚本一键启动准备:集群部署规划:配置了主机名、映射主机时间同步关闭防火墙配置环境变量安装了zookee
Chrome浏览器安装插件 Chrome浏览器安装广告拦截插件版权声明:本文为使用及总结心得,未经博主允许不得转载,欢迎大家拍砖、叫好、吐槽!!https://blog.csdn.net/OYziqing可能会有其他方法 这个方法是我自己琢磨的 亲测有效 如果有其他更方便的方法可以留言交流一下 1.谷歌扩展程序谷歌浏览器网址栏搜索 chrome://extensions/ 打开谷歌扩展程序...
MapReduce核心之shuffle hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是从Map结束到Reduce开始之间的过程。首先看下这张图,就能了解shuffle所处的位置。图中的partitions、copy phase、sort phase所代表的就是shuffle的不同阶段。shuffle阶段又可以分为Map端的shuffle和Reduce端的shuff...
DAO,Service,Controller各层之间的关系 DAO层:DAO层主要是做数据持久层的工作,负责与数据库进行联络的一些任务都封装在此,DAO层的设计首先是设计DAO的接口,然后在Spring的配置文件中定义此接口的实现类,然后就可在模块中调用此接口来进行数据业务的处理,而不用关心此接口的具体实现类是哪个类,显得结构非常清晰,DAO层的数据源配置,以及有关数据库连接的参数都在Spring的配置文件中进行配置。Service层:Service层主要...
Azkaban 转自:https://blog.csdn.net/clypm/article/details/790768011. Azkaban是什么?Azkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的dependencies 来设置依赖关系,这个依赖关系必须是无环的,否则...
命名变量的神奇网站 推荐一个命名变量的神奇网站 CODELF在我们写程序的时候,总是需要去给各种变量命名。于是各种命名大法都上来了,有拼音的,有首字母缩写的,各种各样。而我们推荐的命名肯定是英文的驼峰命名。今天给大家推荐一个网站:https://unbug.github.io/codelf/这个网站可以根据你输入的关键词,...