大数据之hadoop
文章平均质量分 62
BDLng
这个作者很懒,什么都没留下…
展开
-
HDFS原理篇
HDFS: 为什么出现:一台机器不能存储下所有的数据 是什么:分布式存储文件系统 特点:高容错性(多备份) 批处理(移动计算,而不是移动数据;数据暴露给计算框架) 适合大数据处理(可也达到10K+节点) 流式文件(一次写入,多次读取;不可修改原有文件) 构建在廉价的机器上(多副本,高容错) 提高了磁盘的利用率(如果不切片进行存储,那么当需要拉去数据时,只原创 2017-11-28 15:43:47 · 500 阅读 · 0 评论 -
hadoop部署(单机、HA、HA+federation)
Hadoop目录结构及其意思: 单机部署: 1、tar -zvxf java.......tar.gz 2、tar -zvxf hadoop .... .tar.gz 3、修改hadoop 目录下的etc/hadoop/hadoop-env.sh Java_home配置: export JAVA_HOME = jdk地址 4、修改hadoop 目录下的etc/原创 2017-11-28 16:16:14 · 681 阅读 · 0 评论 -
大数据下 移动计算 和 移动数据的一点理解
移动计算就是把计算任务下发到数据所在的节点进行处理。 移动数据就是将数据移动到计算任务的节点,这样将损耗大量网络开销,导致流量激增,处理效率慢。 此外还要申明,在mapreduce程序中,其中map阶段是移动计算的,即本地计算,但是在reduce时,要进行shuffle进过网络传输。 更多详情:http://blog.csdn.net/king_a_123/article/原创 2017-11-28 16:31:15 · 4332 阅读 · 0 评论 -
Mapreduce&yarn工作机制
Mapreduce运行流程: Mapreduce程序运行过程是这样的:程序通过job.submit()提交后,通过YARNRunner中动态代理(proxy)远程调用,跟yarn resourcemanager通信,获得一个资源提交路径和jobid,然后客户端mapreduce程序通过HDFS获得文件的信息(文件大小),根据文件大小和用户设置的minsize、maxsize参数,对文件进行切原创 2017-12-18 16:46:20 · 623 阅读 · 0 评论 -
Mapreduce切片机制
为什么: 一个文件比如由200MB,存储再HDFS上,又按HDFS默认块大小128MB进行切块(block)存储,且每个块(block)备份3份,那么这个文件将被切成2块存储到HDFS上。mapreduce程序相当于HDFS的客户端,每个节点上的mapreduce向HDFS拿数据时,如果没有规划好切片大小,导致节点上程序运行,需要从其他节点上拿数据,那么必然经过网络传输,会消耗网络资源,速度慢,原创 2017-12-18 16:42:54 · 2289 阅读 · 0 评论 -
MapReduce运行全流程
MapReduce运行全流程: Nodemanager从Resourcemanager那里拿到Task之后,就启动一个规定cpu、内存的container用来运行MapTask。 那么MapTask就开始工作了,MapTask通过Inputformat组件,从任务所指定路径(如:HDFS)上开始读取数据。需注意的是,他一次只读一行,读完一行调一次用户写的Map方法,数据格式为,其中K为起原创 2017-12-19 11:44:11 · 963 阅读 · 0 评论 -
HadoopRPC框架-----模拟NameNode和Client通信
Hadoop中datanode和namenode之间的通信是通过他们内部实现的一个RPC框架实现的,一般这个RPC框架,应用于纯后台交互系统中。 下面对其API进行一下NameNode和Client之间通信的Demo。 代码:(jar自己引) HDFS客户端: import java.net.InetSocketAddress; import org.apache.hadoop.conf.原创 2017-12-19 16:03:59 · 599 阅读 · 0 评论 -
Window下操作HDFS----异常处理
window下操作hdfs出现空指针异常,除了需要配置hadoop环境之外,还要修改hadoop安装目录里面的bin,可以通过自己编译一个hadoop,也可以直接从网上下载相应的编译后文件:https://github.com/steveloughran/winutils,环境好了之后,还会出现问题这是因为访问权限问题,只要修改访问的主机名称就好了,可以通过传递jvm参数来告诉程序,即添加jvm参原创 2018-01-18 20:01:29 · 740 阅读 · 0 评论