![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 77
MrGeroge
这个作者很懒,什么都没留下…
展开
-
Hadoop技术内幕-Hadoop配置信息处理
1.Hadoop配置文件:使用org.apache.hadoop.conf.Configuration处理配置信息,并采用XML格式,资源合并(比如core-default.xml和core-site.xml而言,若前一个文件没有设置final,则后一个文件的内容将会覆盖前者中的同名配置;否则当加载后者时会出现警告信息);属性扩展,比如${Hadoop.tmp.dir}/dfs/name中假设${原创 2017-03-27 19:11:41 · 388 阅读 · 0 评论 -
Hadoop实战一
1. 三副本放置1) 第一个副本放在写入文件的DataNode上2) 第二个副本放在不同机架上的任意DataNode3) 第三个副本放在同一个NameNode管理的DataNode上(一个NameNode可管理4000个DataNode)2. Block概述1) 默认是64MB2) 错误处理:l 每当DataNode读取Block时,会进行C原创 2017-12-06 14:03:04 · 825 阅读 · 0 评论 -
HBase实战
1. HBase海量数据库(key-value)HBase逻辑视图行键+时间戳+列族=key字节码=value修改=新增;删除=标记(合并时删除)HBase的特点HBase相关术语:、 元素由行健+列族+时间戳唯一确定HLOG保存在HDFS中,因此自身具有一定的容错能力;一个RegionServer只有一个HLog原创 2017-12-06 14:05:38 · 3196 阅读 · 0 评论 -
Pig实战
Pig基本数据结构 Pig Latin基本命令:1) sh cmd:执行linux命令2) grunt>records = load‘hdfs://localhost:9000/input/test’ as (value:int,age:int,apliy:chararray);加载HDFS中的源文件,并存储为records其中value,age,apliy均为原创 2017-12-06 14:06:53 · 328 阅读 · 0 评论 -
YARN框架解析
YARN框架Yarn是资源管理框架,其核心思想是把JobTracker的资源管理和作业调度分开,分别由ResourceManager和ApplicationMaster进程实现Yarn的4大核心组件分别为ResourceManager、NodeManager、ApplicationMaster和Container(1) ResourceManager(RM):控制集群并管理原创 2017-12-06 14:08:00 · 515 阅读 · 0 评论 -
Hive实战
1. Hive基础解析器:把SQL映射成MapReduce作业ThriftServer通信工具,支持跨语言跨平台Hive工作原理:Hive作为SQL的解释器,编译器,优化器,用于数值分析Hive最小处理单元是操作符(作业)1) Hive把SQL解释成多个操作符,形成抽象语法树2) 抽象语法树->查询块3) 查询块->逻辑查询计划原创 2017-12-06 14:10:09 · 401 阅读 · 0 评论 -
HDFS机架感知策略,MapReduce的Shuffle过程
1. HDFS机架放置策略(三副本如何放置)1)第一个副本放在上传文件的DataNode2)第二个副本放在不同机架上的任意节点3)第三副本放在与2)相同机架上的不同节点2. MapReduce的Shuffle过程详解Map端Shuffle操作:1) 经过Map操作后,会得到多个key-value对,根据partition操作,由key-valu原创 2017-12-06 14:14:19 · 490 阅读 · 0 评论 -
HDFS HA以及Federation,Zookeeper概述
HDFS HA策略(HighAvailability With QJM)每个NameNode启动时,由其ZKFC向Zookeeper注册(创建唯一的Znode);当某个NameNode崩溃后,其ZKFC向Zookeeper报告,由Zookeeper删除对应的Znode,然后通过Watch消息原子广播到其他的standby的ZKFC,standby之间开始选取新的active节点作为新的Name原创 2017-12-06 14:17:04 · 514 阅读 · 0 评论 -
Hadoop Mahout学习
Mahout学习机器学习: 预测算法:平方损失函数代价函数: 分类算法:优化函数:梯度下降算法(斜率和步长)或者拟牛顿法损失函数-log(P(Y|X)) 求概率的事情代价函数 防止过拟合模型出现,避免震荡,增加推广能力,可采用L1范数和L2范数你如何构建训练集,你所训练的模型,就具备什么样的功能Python实现音乐分类器流程:(不是重点)原创 2017-12-06 14:19:00 · 398 阅读 · 0 评论 -
MapReduce框架学习
1.贝叶斯分类器的MapReduce实现:训练样本可由三个MapReduce作业实现: 第一个作业( ExtractJob)抽取文档特征, 该作业只需要Map即可完成; 第二个作业( ClassPriorJob) 计算类别的先验概率, 即统计每个类别中文档的数目, 并计算类别概率; 第三个作业( ConditionalProbilityJob) 计算单词的条件概率, 即统计<label,原创 2017-12-06 14:21:46 · 863 阅读 · 0 评论 -
Hadoop基础
MapReduce的体系架构四个组建:Client:提交任务JobTraker:调度任务TaskTracker:map()和reduce() MapReduce的四个生命周期:提交作业1) 对作业进行配置2) MapReduce程序3) 配置输入输出路径、输出是否压缩4) 配置完成后通过JobClient提交任务 作业调度策略包括:F原创 2017-12-06 14:00:52 · 291 阅读 · 0 评论 -
Hadoop技术内幕-序列化与压缩
1.java序列化对象序列化:将对象编码成字节流,以及从字节流中重构对象三种用途:1) 持久化格式:将对象序列化后的字节流保存在磁盘以供反序列化使用2) 通信数据格式:对象序列化后的字节流可以通过网络从一台虚拟机传输到另一台虚拟机3) 拷贝、克隆机制:将对象序列化后的字节流保存在内存的缓存区中,然后通过反序列化得到以前对象的拷贝 Java自带的序列化机制可以跨平台,即在原创 2017-03-27 19:12:32 · 489 阅读 · 0 评论 -
Hadoop技术内幕-Hadoop远程过程调用
1.远程过程调用(RPC) 即允许程序调用位于其他机器上的过程:比如A是调用方,B是被调用方,A将信息传给B,然后挂起等待B反馈信息给A,最简单的过程调用是方法调用,典型的控制流同步模型(C/S模型在不同进程之间交互)就是一种RPC。RPC通过接口定义语言(IDL)描述远程调用的接口信息,通过调用IDL编译器之后会生成三个文件包括头文件(包含接口函数的定义),客户存根(可以理解为客户端原创 2017-03-27 19:13:43 · 924 阅读 · 0 评论 -
Hadoop技术内幕-Hadoop文件系统
第5章 Hadoop 文件系统1.文件及文件系统文件的本质是存储在设备上的线性字节流文件系统用于文件的管理包括文件的结构以及命名、存取、使用、保护和实现文件系统支持的系统调用:1) 创建文件2) 删除文件3) 打开文件4) 关闭文件5) 读文件6) 写文件7) 追加数据8) 读记录9) 写记录10) 删除记录11)原创 2017-03-28 18:50:54 · 1354 阅读 · 0 评论 -
Hadoop权威指南-HDFS概述
第6章HDFS概述6.1HDFS的主要特性1.HDFS的主要特征l 支持超大文件l 检测和快速应对硬件故障l 流式数据访问l 简化一致性模型(1次写多次读) 2.HDFS不适合的场景l 低延迟数据访问,可以考虑HBase或者Cassandral 大量小文件l 多用户写入文件、修改文件 3.HDFS体系结构(Master/Slave)原创 2017-04-10 22:50:56 · 673 阅读 · 0 评论 -
Hadoop权威指南-Datanode
第7章数据节点实现7.1 数据块存储第一次启动HDFS集群前,首先需要对名字节点进行格式化,从而使名字节点建立对应的文件结构bin/hadoop namenode –format数据节点第一次启动时创建存储目录,数据节点可以管理多个存储目录(配置项${dfs.data.dir})${dfs.data.dir}一般有四个目录和两个文件分别为:l blocksBeingWri原创 2017-04-12 10:17:14 · 718 阅读 · 0 评论 -
Hadoop权威指南-DFSClient
第9章 HDFS客户端1. DFSClient的构造和关闭DFSClient()构造方法的功能:1) 读取配置项信息并初始化成员变量2) 建立到NameNode的IPC连接(createRPCNamenode()和createNamenode()) DFSClient.close()关闭客户端的功能:1) leasechecker.close()//关闭租约管理器2原创 2017-04-28 13:13:42 · 614 阅读 · 0 评论 -
HDFS 基本使用
大数据生态技术集群:Hadoop:分布式文件系统HDFS+分布式计算框架MapReduce+Yarn资源调度管理框架HBase:分布式海量数据库,离线分析和在线业务Hive:数据仓库,类似SQLZookeeper:一致性协调Sqoop:数据导入和数据采集(关系型数据HDFS)Flume:数据采集框架(日志采集)Storm:实时流式计算框架Spark:内存计算框架(S原创 2017-04-28 21:00:51 · 372 阅读 · 0 评论 -
Hadoop疑难杂症
前天安装了Pig,本来写了条Pig Latin,但一直卡在17/05/07 17:47:07 INFO mapreduce.Job: Running job: job_1494150363568_0001跑不通,想着肯定是MapRedcue自身有问题,于是开始了艰苦的检错之旅,从CSDN到stackflow,终于找到问题是由于磁盘空间不足,导致节点不健康,从而Job无法继续执行下去,因此修改了ya原创 2017-05-07 17:59:05 · 305 阅读 · 0 评论 -
HDFS权威指南-NameNode
第8章 NamenodeNamenode主要功能包括:1) 文件目录树管理,文件/目录元数据管理,文件索引块管理(第一关系,保存在磁盘命名空间镜像和编辑日志中)2) 数据块与数据节点的映射关系(第二关系,由Datanode启动时提供) 8.1从i-node到INodei-node(索引节点):前半部分包括文件权限,所有者标识,以及文件长度原创 2017-04-27 21:53:54 · 877 阅读 · 0 评论 -
HDFS概述
第6章HDFS概述6.1HDFS的主要特性1.HDFS的主要特征l 支持超大文件l 检测和快速应对硬件故障l 流式数据访问l 简化一致性模型(1次写多次读) 2.HDFS不适合的场景l 低延迟数据访问,可以考虑HBase或者Cassandral 大量小文件l 多用户写入文件、修改文件 3.HDFS体系结构(Master/Slave)原创 2017-12-07 10:14:09 · 425 阅读 · 0 评论