hadoop
bclshuai
这个作者很懒,什么都没留下…
展开
-
11.3hadoop 维护:备份、委任解除节点、升级
11.3hadoop 维护:备份、委任解除节点、升级1.1 维护1.1.1 日常管理过程(1) namenode元数据备份使用dfsadmin下载最新的fsimage镜像文件hdfs dfsadmin –fetchImage fsimage.backup(2) 数据备份hadoop复本机制仍然可能导致重要数据丢失,所以要将优先级高的数据进行备份...原创 2020-03-11 10:36:56 · 140 阅读 · 0 评论 -
11.2hadoop监控:日志配置、堆栈跟踪、度量和JMX
1.1 监控检测集群的健康状态,避免宕机。1.1.1 日志访问http://resource-manager-host:8088/logLevel去设置日志级别,用于排查问题。或者用命令hadoop daemonlog –setlevel resource-manager-host:8088 org.apche.hadoop.yarn.server.resourc...原创 2020-03-11 10:35:09 · 303 阅读 · 0 评论 -
11.1.3hadoop工具dfsadmin、fsck、数据库扫描器、均衡器
(1)dfsadmin管理控制工具查看hdfs的状态,切换安全模式,保存新的fsimage镜像,重置edits文件等(2)fsck工具(file system check)fsck工具从namenode获取文件系统的信息,检测文件系统总字节数,文件夹数,文件数,数据块数,满足最小复制条件的数据块数。超过3个复本的数据块,少于3个复本...原创 2020-03-11 10:34:07 · 425 阅读 · 0 评论 -
11.1.2hadoop 安全模式
11.1.2hadoop 安全模式1.1.1 安全模式安全模式是文件系统只读不写的过程,一般在载入旧镜像,执行编辑日志,生成新镜像和空编辑日志文件的过程中。datanode存储数据块列表,namenode存储块的位置信息。datanode定期向namenode发送最新的块列表信息。如果某个块复本数量少于最小复本级别(dfs.namenode.replication.min属...原创 2020-03-11 10:33:01 · 113 阅读 · 0 评论 -
11.1.1namenode和datanode的数据结构和格式以及镜像fsimage和编辑日志edit
11.1.1namenode和datanode的数据结构和格式以及镜像fsimage和编辑日志edit1.1.1 永久性数据结构namenode的目录结构如下图(1)VERSION属性文件namespaceid文件系统命名空间唯一标识。clusterID是将HDFS集群作为一个整体赋予的唯一标识符。blockpool...原创 2020-03-11 10:31:03 · 318 阅读 · 0 评论 -
10.5 hadoop集群基准评测程序测试
1.1 基准评测程序测试hadoop集群通过运行测试作业,用测试结果和资源检测结果来判断集群的性能,调整设置进行优化。最好在刚搭建好集群时测试。通过运行高强度的IO操作评测程序检测硬盘故障。1.1.1 hadoop基准评测程序(1)测试IO读写hadoop自带基准评测程序,在D:\hadoop\hadoop-2.8.3\share\hadoop\mapreduce...原创 2020-03-11 10:29:29 · 354 阅读 · 0 评论 -
10.4 hadoop安全性kerberos安全验证和委托令牌
1.1 安全性HDFS的文件许可模块可以组织程序漏洞而毁坏文件系统,也能阻止运行hadoop fs –rmr删除文件指令,但是无法组织恶意的用户假冒root身份来访问或者删除数据。需要使用Kerberos实现用户认证。1.1.1 Kerberos和Hadoop(1)客户端请求认证的步骤1) 认证。客户端向认证服务器获取含时间票据授权票据(T...原创 2020-03-01 22:57:03 · 1017 阅读 · 0 评论 -
10.3 hadoop环境设置、地址配置、内存配置、守护进程设置。配置文件设置
1.1 hadoop配置hadoop配置文件在安装包的etc/hadoop目录下,但是为了方便升级,配置不被覆盖一般放在其他地方,并用环境变量HADOOP_CONF_DIR指定目录。1.1.1 配置管理集群中每个节点都维护一套配置文件,并由管理员完成文件的同步工作。集群管理工具Cloudera Manage和Apache Ambari可以在集群...原创 2020-03-01 17:43:05 · 1026 阅读 · 0 评论 -
9.2.3 hadoop reduce端连接-分区分组聚合
1.1.1 reduce端连接-分区分组聚合reduce端连接则是利用了reduce的分区功能将stationid相同的分到同一个分区,在利用reduce的分组聚合功能,将同一个stationid的气象站数据和温度记录数据分为一组,reduce函数读取分组后的第一个记录(就是气象站的名称)与其他记录组合后输出,实现连接。例如连接下面气象站数据集和温度记录数据集。先用几条数据做分...原创 2020-02-22 00:51:12 · 341 阅读 · 1 评论 -
9.3.2 map端连接-CompositeInputFormat连接类
1.1.1 map端连接-CompositeInputFormat连接类(1)使用CompositeInputFormat连接类需要满足三个条件:1)两个数据集都是大的数据集,不能用缓存文件的方式。2)数据集都是按照相同的键进行排序;3)数据集有相同的分区数,同一个键的所有记录在同一个分区中,输出文件不可分割;要满足这三个条件,输入数据在达到map端连接函数之前...原创 2020-02-21 20:27:50 · 392 阅读 · 0 评论 -
9.3.2 map端连接-CompositeInputFormat连接类
1.1.1 map端连接-CompositeInputFormat连接类(1)使用CompositeInputFormat连接类需要满足三个条件:1)两个数据集都是大的数据集,不能用缓存文件的方式。2)数据集都是按照相同的键进行排序;3)数据集有相同的分区数,同一个键的所有记录在同一个分区中,输出文件不可分割;要满足这三个条件,输入数据在达到map端连接函数之前...原创 2020-02-19 00:25:52 · 194 阅读 · 1 评论