Hadoop
文章平均质量分 70
夏至1208
这个作者很懒,什么都没留下…
展开
-
Hadoop伪分布式部署
Hadoop三个组件# HDFS 分布式文件存储系统(底层、生产)# MapReduce 分布式计算框架(基于磁盘,速度慢,shuffle)# Yarn 资源(内存+core)+作业(job)调度管理系统(生产)企业一般不选择原生Apace Hadoop部署,而是选用CDH,Ambari,Hdp部署。CDH:cloudera公司 将Apache hadoop-2.6.0源代码修复b...原创 2018-09-27 16:26:55 · 207 阅读 · 0 评论 -
大数据开发--hadoop存储格式
行式存储与列式存储 在介绍hive存储格式之前,我们先来了解一下行式存储与列式存储的区别。1、行式存储优点: 一条数据就是一行,比较符合面向对象的思维,所有信息都放在一起。这种存储格式可以很方便的进行insert/update操作。缺点:a、如果只需要查询几个列的数据,它会读取所有的列的数据,而不能跳过不需要的列。一般在数据量比较大的时候性能影响比较明显。b、由于每一行中有很多不...原创 2018-12-11 15:33:40 · 708 阅读 · 0 评论 -
大数据开发--hadoop压缩 lzo测试
摘要: lzo并不是linux系统原生支持,所以需要下载安装软件包。这里至少需要安装3个软件包:lzo, lzop, hadoop-gpl-packaging。gpl-packaging的作用主要是对压缩的lzo文件创建索引,否则的话,无论压缩文件是否大于hdfs的block大小,都只会按照默认启动2个map操作。一、安装lzop native library > wget http...原创 2018-12-11 09:59:18 · 584 阅读 · 0 评论 -
大数据开发--hadoop压缩 snappy测试
摘要: 我们用Apache或者CDH下载下来的hadoop安装包来安装hadoop是不支持snappy压缩的,我们可以查看$HADOOP_HOME/lib/native,最开始里面是空的。或者执行hadoop checknative -a来查看支持的压缩,发现压缩格式基本都是false。如果要用snappy压缩,需要重新编译hadoop。下面我们来编译hadoop。一、编译准备部署JAV...原创 2018-12-10 17:29:51 · 1450 阅读 · 0 评论 -
大数据开发之Hadoop压缩
摘要: 在大数据应用中,首先需要考虑的问题就是如何存储大量数据(HDFS)。通常情况下,我们会将每天产生的生产日志文件存储到HDFS中,久而久之会占用大量磁盘空间。而压缩技术可以大大减少数据文件对于磁盘的占用。而且在读写HDFS的时候,可以减少磁盘和网络的IO,提高MapReduce作业的效率。但是,压缩也会在一定程度上增加CPU的消耗,所以在使用压缩的时候应该综合考虑,合理使用。注意: 压...原创 2018-12-10 16:44:04 · 261 阅读 · 1 评论 -
Hadoop HA高可用集群搭建测试
摘要 在Hadoop2.0之前,只有一个NameNode,若NameNode机器出现故障,那么整个集群都无法使用。这个架构存在单点故障的隐患。之后推出了HA的架构,即有两个NameNode,一台为active状态,一台为standby状态。active NameNode对外提供服务,standby实时同步了active NameNode的元数据,当active NameNode节点出现故障,s...原创 2018-11-29 11:02:20 · 1889 阅读 · 0 评论 -
Hive统计TopN问题
这里模拟一个统计每个区域最受关注的top3的产品业务需求,并模拟生成3张表,分别为城市表city_info,产品表product_info,用户点击行为表user_click。所用的工具有HDFS,HIVE,SQOOP,MYSQL。原创 2018-10-29 17:23:58 · 2894 阅读 · 0 评论 -
Yarn调优
1 什么是yarnYarn是Hadoop2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster,其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。Yarn主要由Resou...原创 2018-10-25 16:31:00 · 333 阅读 · 0 评论 -
HDFS读文件流程
HDFS读文件流程图如下:1、client通过FileSystem.open(path)方法,去与NN进行RPC通信,NN会校验传入的路径是否存在,用户是否有权限访问该路径下的文件。2、校验完成后,返回部分或者全部的block列表。其实就是返回FSDataInputStream对象。3、client调用FSDataInputStream的read()方法a 去第一个块的最近的DataNo...原创 2018-10-16 15:05:59 · 141 阅读 · 0 评论 -
Yarn的工作流程(mr提交应用程序)
Yarn的工作流程如下图:1、 用户向Yarn提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。2、ResourceManager为该程序分配第一个Container,并与对应的NodeManager通信,要求它在对应的Container中启动应用程序的ApplicationMaster。3、ApplicationMas...原创 2018-10-16 11:03:39 · 1371 阅读 · 0 评论 -
secondary namenode和namenode的区别
Secondary NameNode:它究竟有什么作用?在Hadoop中,有一些命名不好的模块,Secondary NameNode是其中之一。从它的名字上看,它给人的感觉就像是NameNode的备份。但它实际上却不是。很多Hadoop的初学者都很疑惑,Secondary NameNode究竟是做什么的,而且它为什么会出现在HDFS中。因此,在这篇文章中,我想要解释下Secondary Name...转载 2018-10-15 16:06:43 · 182 阅读 · 0 评论 -
pid文件
pidpid就是hadoop相关进程的进程号默认存储在/tmp目录下,如图:因为linux tmp目录会定期清理文件 如果将pid文件设置在tmp目录下 pid文件会被删除,注意:pid文件被删除不会影响当前进程的正常运行,但是会影响停止和重启该进程 停止会找不到进程 重启会重新启动一个新的进程 造成进程号紊乱如果遇到这种情况 可先强制杀死进程,再重新启动进程建议不要将pid文件位置设...原创 2018-10-15 12:49:53 · 1177 阅读 · 0 评论 -
HDFS写文件流程
HDFS写入文件流程图如下:1 客户端调用Distributed FileSystem.create(path)方法,与NameNode进行RPC通信,参数为路径path。检查传入的路径是否存在,以及当前用户是否有写入权限。假如都满足,就创建一个新的文件,但是此时并不关联任何的block。并且返回FsDataOutputStream对象。如果有一个不满足,返回错误信息。注意:写文件调用对...原创 2018-10-15 11:30:47 · 315 阅读 · 0 评论 -
HDFS架构详解
HDFS:伪分布式1 block块参数为 dfs.blocksize 默认为128M例如:1个文件130M,存在HDFS上存储为两个块一个128M一个2M2 副本数指的是一个块存在的复制数量参数为:dfs.replication 默认为3面试题:一个文件160M,副本数为2,块大小为128M。实际存储空间是多少?块数量是多少?答:一共4个块 实际存储为320M3 HD...原创 2018-10-14 19:19:50 · 304 阅读 · 0 评论 -
JPS命令
什么是jpsjps(Java Virtual Machine Process Status Tool)是JDK 1.5提供的一个显示当前所有java进程pid的命令,简单实用,非常适合在linux/unix平台上简单察看当前java进程的一些简单情况。jps位于JDK的bin目录下,其作用是显示当前系统的java进程情况及其id号。jps相当于Solaris进程工具ps。不像”pgrep j...原创 2018-10-14 16:25:31 · 606 阅读 · 0 评论