hadoop
文章平均质量分 74
小冷在努力
这个作者很懒,什么都没留下…
展开
-
hadoop基础理论知识
hadoop是用于管理海量数据,且能够对海量数据进行高效率处理的一种系统框架。其特点有:1. 扩容性:能可靠的存储和处理海量数据 2.成本低:普通的机器就能够组成服务器集群来进行数据的存储和处理3. 高效性:通过分发数据,hdoop可以再数据所在的节点上并行的处理它们4. 可靠性:hadoop能自动地维护数据的多份副本,当计算任务失败后能自动重新部署计算任务。hadoop的两个核心项目:HD原创 2017-03-27 10:43:26 · 624 阅读 · 0 评论 -
hdfs运维指令
配额管理 Hdfs dfsadmin条件:对目录进行设置 值必须时正整数 具有管理员权限2、目录配额控制目录所有文件/文件夹的个数,当前设置的目录也算是1个,所以1表示当前目录为空目录Hdfs dfsadmin –setQuota 1 /user/data //设置/usr/data目录下的配额为1,即/usr/data目录下不能在创建文件或文件夹Hdfs d...原创 2018-11-06 10:38:21 · 1183 阅读 · 0 评论 -
五种大数据处理架构
该文章转载自https://blog.csdn.net/wjandy0211/article/details/78802044。作者对当前大数据框架特点分析的很透彻清晰。现对该文章内容做一遍复读。如下:大数据是收集、整理、处理大容量数据集,并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力或存储容量早已超过一台计算机的上限,但这种计算类型的普遍性、规模,以及价值在最近几年才...转载 2018-08-04 11:20:48 · 3623 阅读 · 0 评论 -
HDFS性能优化
分布式文件系统是在多个节点上做的数据文件的部署,所以,当多个节点之间要做数据的传输通信时,就要有一个文件目录的管理者和网络带宽的使用。当namenode的可使用的内存空间和网络带宽可使用率非常大时,实现节点之间的数据快速传输通信是非常可观的。这里,就对如何提高hdfs性能做如下优化介绍。 1. Hdfs存档/归档,减少namenode内存空间的使用 存档是用来备份的时候标识用的,说...原创 2017-09-10 15:34:33 · 6250 阅读 · 0 评论 -
HDFS启动过程了解
Namenode目录:元数据(name,permission,block,replication),没有dn的位置当系统启动并加载fsimage完成之后(这个时候元数据都加载到内存中),dn向namenode报告自己的块列表,这个时候形成数据块->datanode列表的映射,数据块到datanode列表的映射关系在namenode内存中维护。在实际的应用中,数据块到datanode的对应关系经原创 2017-09-10 15:26:06 · 358 阅读 · 0 评论 -
HDFS文件创建和存储
在对上篇hdfs网络拓扑与机架感知 有了了解之后,现在对HDFS文件创建和存储过程做一个基础的介绍。HDFS在文件创建和存储的过程中,需要考虑带宽和可靠性。如果在hdfs集群中选出datanode列表作为文件的存储节点呢?上篇已经介绍说了通过机架感知策略实现的。所以,在接下来的文件创建和存储过程中,已经拿到了文件存储的datanode列原创 2017-09-10 15:23:37 · 5143 阅读 · 0 评论 -
hdfs网络拓扑与机架感知
在了解hdfs创建文件之前,需要对hdfs网络拓扑有一个浅显的认知,继而对机架感知做一个简单的介绍。在海量数据处理中,其主要限制因素是节点之间数据的传输速率-带宽稀缺。这里的想法是将两个节点间的距离作为带宽的衡量标准。Hadoop采用一个简单的方法:把网络看作一棵树,两个节点间的距离是它们到最近共同祖先的距离总和。该树中的层次是没有预先设定的,但是相对于数据中心、机架、正在运行的节点,通常原创 2017-09-10 15:17:12 · 1458 阅读 · 0 评论 -
2.7.2hadoop分布式安装
本篇博客对hadoop分布式安装做一下说明:安装包JDK安装hadoop安装ssh安全登录关闭防火墙注意事项安装包jdk-8u181-linux-x64.tar.gzhadoop-2.7.7.tar.gzJDK安装1) 解压:Tar –xzvf jdk-8u181-linux-x64.tar.gzjdk包重命名为jdk83) ...原创 2017-09-05 11:17:11 · 281 阅读 · 0 评论 -
RPC学习总结
因为hadoop实现的集群之间的数据是通过网络来进行传输的,hadoop的整个体系结构就是构建在RPC之上的(见org.apache.hadoop.ipc)。这里对RPC做一个浅显的学习总结RPC——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模原创 2017-04-15 19:17:07 · 361 阅读 · 0 评论 -
MapReduce学习总结
MapReduce是一种分布式计算框架,又称并行计算框架,主要用于搜索领域,解决海量数据的计算问题。MR由两个阶段组成:Map和Reduce,这里用户只需要实现map()和reduce()两个函数,即可实现分布式计算,听起来是不是感觉很简单的样子如果要对MR有更深入的了解,就需要对MR的执行流程有更深入的了解了。这里先对MR执行流程做一个理论的介绍,之后举例论证这些流程,最后代码实现。MR原创 2017-04-15 19:03:57 · 5440 阅读 · 0 评论 -
HDFS学习总结
这里主要介绍HDFS的shell操作指令,关于HDFS理论知识,请参看hadoop基础理论知识章节HDFS的shell操作指令HDFS对文件操作些许JAVA API1.读取HDFS系统下的文件内容2.从linux上传文件到HDFS3.从HDFS下载文件到linux4.删除HDFS文件5.浏览HDFS文件夹6.创建HDFS文件夹原创 2017-04-15 17:57:29 · 809 阅读 · 0 评论 -
hadoop集群安装
通过创建多个虚拟机来模拟实现hadoop的集群安装。现创建了三个虚拟机,主机名分别为hadoop0,hadoop1,hadoop2。现选中hadoop0作为集群主节点,hadoop1、hadoop2作为从节点。在hadoop0上运行Java进程NameNode、JobTracker、SecondaryNameNode(可以放到从节点上运行),从节点(hadoop1、hadoop2)运行Java进程原创 2017-04-15 17:31:33 · 245 阅读 · 0 评论 -
hadoop伪分布式环境搭建
1. 在虚拟机上创建三个服务器,用户都是hadoop,密码是1234562. 用xShell或者secureCRT远程连接到三台服务器上,便于操作3. 修改主机名:hostname hadoop0 hostnamehadoop1 hostname hadoop2。修改主机名配置文件:vi /etc/sysconfig/network HOST原创 2017-03-13 10:15:19 · 321 阅读 · 0 评论 -
hadoop原理学习记录
1.hdfs:靠谱:有备份写入hdfs系统时,生成一个校验和,传输数据时再生成一个校验和,传输完成时又生成一个校验和。对比上传前后校验和。每个datanote运行一个守护线程datablockscanner数据块扫描器。2.namenode刚启动工作过程: 进入安全模式,加载fsimage和edit日志(镜像和编辑日志)。如果满足最小副本条件(99.9%的块存在一个副本,...原创 2018-11-06 10:41:14 · 169 阅读 · 0 评论