hadoop
JAVA日常笔记精选
分享日常工作中常见的问题
展开
-
hadoop使用zk自动容灾
参考之前的文章,配置hadoop集群和HA1.停止hadoop集群2.修改hdfs-site.xml配置自动容灾[hdfs-site.xml]<property> <name>dfs.ha.automatic-failover.enabled</name> <value>true</value> <...原创 2019-12-10 11:18:01 · 190 阅读 · 0 评论 -
RM HA resourcemanager 资源管理器高可用配置 HA
1.停止yarn$>stop-yarn.sh2.配置 yarn-site.xml<!-- 启用rm高可用 --><property> <name>yarn.resourcemanager.ha.enabled</name> <value>true</value></property...原创 2019-12-10 11:10:48 · 188 阅读 · 0 评论 -
设置 切片 大小
<!-- mapred-site.xml --><!-- 最小切片大小 --><property> <name>mapreduce.input.fileinputformat.split.minsize</name> <value>0</value></property><!...原创 2019-07-09 09:09:39 · 1056 阅读 · 0 评论 -
hadoop chain 链条
链表流程图:使用方法:可以查看ChainMapper类说明 //使用 不使用默认配置的配置文件 * JobConf mapAConf = new JobConf(false); * ... * ChainMapper.addMapper(conf, AMap.class, LongWritable.class, Text.class, * Text.class,...原创 2019-07-10 10:38:04 · 136 阅读 · 0 评论 -
节点的服役与退役 commissioning与decommissioning
在不停止集群的情况下添加和删除节点[slaves.xml] //仅仅是控制集群操作,hadoop启动的时候会根据这个文件里面的地址,启动所有数据节点管理节点的服役与退役,需要配置hdfs-site.xml和yarn-site.xml这两个属性是由hadoop-daemon调用的属性中的文件路径必须是名称节点上的(在nam...原创 2019-07-10 10:42:39 · 404 阅读 · 1 评论 -
HDFS High Availability 高可用(HA) with QJM
什么是高可用:1.持续服务的能力。 2.避免single point of failure 单点故障 SPOFFail Over容灾fault tolerent容错hadoop实现HA的两种方式1.Using the Quorum Journal Manager (QJM)2.NFS net FileSystem3.QJM架构...原创 2019-07-10 10:51:56 · 218 阅读 · 0 评论 -
HA 启动过程 high avalibility with QJM
1.启动NN,DN,NM,RM$>start-dfs.sh$>start-yarn.sh或单节点启动://启动名称节点$>hadoop-daemon.sh start namenode//启动资源管理器$>yarn-daemon.sh start resourcemanager//启动所有数据节点 会遍历slaves$>hadoop-daem...原创 2019-07-10 10:53:45 · 170 阅读 · 0 评论 -
hadoop 利用文件系统 FileSystem 读写文件
读取hdfs文件:--------------------------------------------------------------------------------------------1.使用java.net.URL()访问一个文件 static { //设置hdfs协议,没有这一步,无法识别hdfs URL.setURLStreamHandlerF...原创 2019-07-10 11:04:57 · 930 阅读 · 0 评论 -
distcp 并行复制 大数据
//复制文件$>hadoop distcp file1 file2//复制文件夹,如果dir2不存在,则会创建//如果dir2存在,则会将dir1放入dir2下,形成dir2/dir1目录$>hadoop distcp dir1 dir2//可以使用-overwrite强行覆盖dir2$>hadoop distcp -overwrite dir1 dir2...原创 2019-07-10 11:06:27 · 271 阅读 · 0 评论 -
hadoop 远程调试
远端调试名称节点--------------------------------------------------------------------------------[远端s101,namenode]1.查看java远程调试的帮助c:/>java -agentlib:jdwp=help2.设置java虚拟机的远程调试//设置java虚拟机参数,启用远端调试...原创 2019-07-09 09:09:22 · 278 阅读 · 0 评论 -
window 配置hadoop
1.安装jdk,配置环境变量2.官网下载hadoop并解压3.配置环境变量HADOOP_HOME D:\tools\hadoop-2.7.7 PATH %HADOOP_HOME%\bin4.cmd命令测试是否安装成功hadoop version如果报一下错误,需要修改hadoop目录下 conf\hadoop-env.cmd文件中的set JAVA_HOME=%JAVA...原创 2019-07-08 19:37:03 · 151 阅读 · 0 评论 -
hadoop完全分布式部署
本示例使用vm安装五台虚拟机1.准备五台机器,修改ip,hostname,hosts五台机器分别为:s101,s102,s103,s104,s105CentOS7设置静态IP 使用VM NAT模式修改hostname.note修改hosts文件.note2.安装JDK配置环境变量linux安装jdk.note3.安装hadoop配置环境变量4.安装ssh,配置免...原创 2019-07-08 19:02:14 · 147 阅读 · 0 评论 -
hadoop修改为本地目录
hadoop目录创建的时候,默认在临时文件的当前用户名下 /tmp/$cuser/所以每次启动的时候,文件目录都会丢失,每次都要重新格式化名称节点,才可以启动创建目录命令:hadoop fs -mkdir -p /user/hadoop/data格式化名称节点命令: hadoop namenode -format修改为本地目录,需要修改core-site.xml文件可以在...原创 2019-07-08 19:08:07 · 719 阅读 · 0 评论 -
hadoop查看镜像文件和编辑日志文件
镜像文件:hdfs oiv编辑日志: hdfs oev使用的离线工具,不需要启动集群、$>hdfs oiv -p XML -i 源文件 -o 目标文件$>hdfs oev -p XML -i 源文件 -o 目标文件...原创 2019-07-08 19:14:50 · 337 阅读 · 0 评论 -
archive 归档解归档
1、需要启动yarn进程$>start-yarn.sh2、归档文件 archive一般将一些小文件归档成一个xxx.har的大文件夹,该文件夹下有相应的数据文件。xxx.har目录是一个整体,将该目录看成一个归档文件即可。$> hadoop archive -archiveName xxx.har -p 源文件目录3.查看归档文件$>hdfs dfs ...原创 2019-07-08 19:16:18 · 603 阅读 · 0 评论 -
hadoop 性能提升方法
1.归档 将一堆小文件归档成一个xxx.har文件2.压缩文件3.直接内存访问原创 2019-07-08 19:17:06 · 185 阅读 · 0 评论 -
eclipse安装hadoop文件系统插件
1.下载hadoop2.x-eclipse.rar插件2.解压,将hadoop2x-eclipse-plugin\release下的jar包放到eclipse插件目录下3.重启eclipse4.打开首选项,如果出现 Hadoop Map/Reduce说明安装成功5.点击Hadoop Map/Reduce 选择hadoop解压目录,apply and close6.选...原创 2019-07-08 19:20:55 · 137 阅读 · 0 评论 -
secondaryNameNode 检查点设置
secondaryNameNode 工作示意图图片来源(hadoop权威指南)1.创建检查点过程a)nn上执行编辑日志滚动,产生新的编辑日志b)2nn使用get复制nn上的image + editsc)2nn进行融合,产生新的Imaged)2nn使用post发送新的Image到nne)nn使用新的image覆盖旧的2.2nn检查点创建周期a)每隔...原创 2019-07-08 19:23:39 · 394 阅读 · 0 评论 -
配额 quota
配额分为两种:1.目录配额控制目录所含文件/文件夹的数量,包含子文件夹,配额为1表示为空目录$>hdfs dfsadmin -setQuota 1 /user/hadoop/data //设置配额$>hdfs dfsadmin -clrQuota /user/hadoop/data //清除配额2.空间配额设置所占空间大小,包含副本数,比如文件1g,...原创 2019-07-08 19:33:41 · 384 阅读 · 0 评论 -
hadoop 本地模式安装和伪分布式
hadoop安装前提是必须安装jdk第一种:独立模式 Standalone Mode直接解压安装包,配置环境变量即可JAVA_HOME=/soft/jdk1.8HADOOP_HOME=/soft/hadoopPATH="/usr/local/sbin:/usr/local/bin:/usr/bin:/soft/jdk1.8/bin:/soft/hadoop/bin:/soft/...原创 2019-07-08 18:45:41 · 88 阅读 · 0 评论