hadoop 大数据开发4---hadoop 配置文件(转载)

1       获取默认配置

配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:

1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key,配置hadoop集群。

2.浏览apache官网,三个配置文件链接如下:

http://hadoop.apache.org/common/docs/current/core-default.html

http://hadoop.apache.org/common/docs/current/hdfs-default.html

http://hadoop.apache.org/common/docs/current/mapred-default.html

这里是浏览hadoop当前版本号的默认配置文件,其他版本号,要另外去官网找。其中第一个方法找到默认的配置是最好的,因为每个属性都有说明,可以直接使用。另外,core-site.xml是全局配置,hdfs-site.xml和mapred-site.xml分别是hdfs和mapred的局部配置。

2       常用的端口配置

2.1  HDFS端口

 

参数描述默认配置文件例子值
fs.default.name namenodenamenode RPC交互端口8020core-site.xmlhdfs://master:8020/
dfs.http.addressNameNode web管理端口50070hdfs- site.xml0.0.0.0:50070
dfs.datanode.addressdatanode 控制端口50010hdfs -site.xml0.0.0.0:50010
dfs.datanode.ipc.addressdatanode的RPC服务器地址和端口50020hdfs-site.xml0.0.0.0:50020
dfs.datanode.http.addressdatanode的HTTP服务器和端口50075hdfs-site.xml0.0.0.0:50075

 

2.2  MR端口

参数描述默认配置文件例子值
mapred.job.trackerjob-tracker交互端口8021mapred-site.xmlhdfs://master:8021/
jobtracker的web管理端口50030mapred-site.xml0.0.0.0:50030
mapred.task.tracker.http.addresstask-tracker的HTTP端口50060mapred-site.xml0.0.0.0:50060

 

 

2.3  其它端口

参数描述默认配置文件例子值
dfs.secondary.http.addresssecondary NameNode web管理端口50090hdfs-site.xml0.0.0.0:50090
     
     

 

3       三个缺省配置参考文件说明

3.1  core-default.html

 

序号参数名参数值参数说明
1hadoop.tmp.dir/tmp/hadoop-${user.name}临时目录设定
2hadoop.native.libtrue使用本地hadoop库标识。
3hadoop.http.filter.initializers http服务器过滤链设置
4hadoop.security.group.mappingorg.apache.hadoop.security.ShellBasedUnixGroupsMapping组内用户的列表的类设定
5hadoop.security.authorizationfalse服务端认证开启
6hadoop.security.authenticationsimple无认证或认证设置
7hadoop.security.token.service.use_iptrue是否开启使用IP地址作为连接的开关
8hadoop.logfile.size10000000日志文件最大为10M
9hadoop.logfile.count10日志文件数量为10个
10io.file.buffer.size4096流文件的缓冲区为4K
11io.bytes.per.checksum512校验位数为512字节
12io.skip.checksum.errorsfalse校验出错后是抛出异常还是略过标识。True则略过。
13io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.SnappyCodec

压缩和解压的方式设置
14io.serializationsorg.apache.hadoop.io.serializer.WritableSerialization序例化和反序列化的类设定
15fs.default.namefile:///缺省的文件URI标识设定。
16fs.trash.interval0文件废弃标识设定,0为禁止此功能
17fs.file.implorg.apache.hadoop.fs.LocalFileSystem本地文件操作类设置
18fs.hdfs.implorg.apache.hadoop.hdfs.DistributedFileSystemHDFS文件操作类设置
19fs.s3.implorg.apache.hadoop.fs.s3.S3FileSystemS3文件操作类设置
20fs.s3n.implorg.apache.hadoop.fs.s3native.NativeS3FileSystemS3文件本地操作类设置
21fs.kfs.implorg.apache.hadoop.fs.kfs.KosmosFileSystemKFS文件操作类设置.
22fs.hftp.implorg.apache.hadoop.hdfs.HftpFileSystemHTTP方式操作文件设置
23fs.hsftp.implorg.apache.hadoop.hdfs.HsftpFileSystemHTTPS方式操作文件设置
24fs.webhdfs.implorg.apache.hadoop.hdfs.web.WebHdfsFileSystemWEB方式操作文件类设置
25fs.ftp.implorg.apache.hadoop.fs.ftp.FTPFileSystemFTP文件操作类设置
26fs.ramfs.implorg.apache.hadoop.fs.InMemoryFileSystem内存文件操作类设置
27fs.har.implorg.apache.hadoop.fs.HarFileSystem压缩文件操作类设置.
28fs.har.impl.disable.cachetrue是否缓存har文件的标识设定
29fs.checkpoint.dir${hadoop.tmp.dir}/dfs/namesecondary备份名称节点的存放目前录设置
30fs.checkpoint.edits.dir${fs.checkpoint.dir}备份名称节点日志文件的存放目前录设置
31fs.checkpoint.period3600动态检查的间隔时间设置
32fs.checkpoint.size67108864日志文件大小为64M
33fs.s3.block.size67108864写S3文件系统的块的大小为64M
34fs.s3.buffer.dir${hadoop.tmp.dir}/s3S3文件数据的本地存放目录
35fs.s3.maxRetries4S3文件数据的偿试读写次数
36fs.s3.sleepTimeSeconds10S3文件偿试的间隔
37local.cache.size10737418240缓存大小设置为10GB
38io.seqfile.compress.blocksize1000000压缩流式文件中的最小块数为100万
39io.seqfile.lazydecompresstrue块是否需要压缩标识设定
40io.seqfile.sorter.recordlimit1000000内存中排序记录块类最小为100万
41io.mapfile.bloom.size1048576BloomMapFiler过滤量为1M
42io.mapfile.bloom.error.rate0.005 
43hadoop.util.hash.typemurmur缺少hash方法为murmur
44ipc.client.idlethreshold4000连接数据最小阀值为4000
45ipc.client.kill.max10一个客户端连接数最大值为10
46ipc.client.connection.maxidletime10000断开与服务器连接的时间最大为10秒
47ipc.client.connect.max.retries10建立与服务器连接的重试次数为10次
48ipc.server.listen.queue.size128接收客户连接的监听队例的长度为128
49ipc.server.tcpnodelayfalse开启或关闭服务器端TCP连接算法
50ipc.client.tcpnodelayfalse开启或关闭客户端TCP连接算法
51webinterface.private.actionsfalseWeb交互的行为设定

 

52hadoop.rpc.socket.factory.class.defaultorg.apache.hadoop.net.StandardSocketFactory缺省的socket工厂类设置
53hadoop.rpc.socket.factory.class.ClientProtocol 与dfs连接时的缺省socket工厂类
54hadoop.socks.server 服务端的工厂类缺省设置为SocksSocketFactory.
55topology.node.switch.mapping.implorg.apache.hadoop.net.ScriptBasedMapping 
56topology.script.file.name  
57topology.script.number.args100参数数量最多为100
58hadoop.security.uid.cache.secs14400 

 

 

 

 

 

 

3.2  hdfs-default.html

 

序号参数名参数值参数说明
1dfs.namenode.logging.levelinfo输出日志类型
2dfs.secondary.http.address0.0.0.0:50090备份名称节点的http协议访问地址与端口
3dfs.datanode.address0.0.0.0:50010数据节点的TCP管理服务地址和端口
4dfs.datanode.http.address0.0.0.0:50075数据节点的HTTP协议访问地址和端口
5dfs.datanode.ipc.address0.0.0.0:50020数据节点的IPC服务访问地址和端口
6dfs.datanode.handler.count3数据节点的服务连接处理线程数
7dfs.http.address0.0.0.0:50070名称节点的http协议访问地址与端口
8dfs.https.enablefalse支持https访问方式标识
9dfs.https.need.client.authfalse客户端指定https访问标识
10dfs.https.server.keystore.resourcessl-server.xmlSsl密钥服务端的配置文件
11dfs.https.client.keystore.resourcessl-client.xmlSsl密钥客户端的配置文件
12dfs.datanode.https.address0.0.0.0:50475数据节点的HTTPS协议访问地址和端口
13dfs.https.address0.0.0.0:50470名称节点的HTTPS协议访问地址和端口
14dfs.datanode.dns.interfacedefault数据节点采用IP地址标识
15dfs.datanode.dns.nameserverdefault指定DNS的IP地址
16dfs.replication.considerLoadtrue加载目标或不加载的标识
17dfs.default.chunk.view.size32768浏览时的文件块大小设置为32K
18dfs.datanode.du.reserved0每个卷预留的空闲空间数量
19dfs.name.dir${hadoop.tmp.dir}/dfs/name存贮在本地的名字节点数据镜象的目录,作为名字节点的冗余备份
20dfs.name.edits.dir${dfs.name.dir}存贮文件操作过程信息的存贮目录
21dfs.web.ugiwebuser,webgroupWeb接口访问的用户名和组的帐户设定
22dfs.permissionstrue文件操作时的权限检查标识。
23dfs.permissions.supergroupsupergroup超级用户的组名定义
24dfs.block.access.token.enablefalse数据节点访问令牌标识
25dfs.block.access.key.update.interval600升级访问钥时的间隔时间
26dfs.block.access.token.lifetime600访问令牌的有效时间
27dfs.data.dir${hadoop.tmp.dir}/dfs/data数据节点的块本地存放目录
28dfs.datanode.data.dir.perm755数据节点的存贮块的目录访问权限设置
29dfs.replication3缺省的块复制数量
30dfs.replication.max512块复制的最大数量
31dfs.replication.min1块复制的最小数量
32dfs.block.size67108864缺省的文件块大小为64M
33dfs.df.interval60000磁盘空间统计间隔为6秒
34dfs.client.block.write.retries3块写入出错时的重试次数
35dfs.blockreport.intervalMsec3600000块的报告间隔时为1小时
36dfs.blockreport.initialDelay0块顺序报告的间隔时间
37dfs.heartbeat.interval3数据节点的心跳检测间隔时间
38dfs.namenode.handler.count10名称节点的连接处理的线程数量
39dfs.safemode.threshold.pct0.999f启动安全模式的阀值设定

 

40dfs.safemode.extension30000当阀值达到量值后扩展的时限
41dfs.balance.bandwidthPerSec1048576启动负载均衡的数据节点可利用带宽最大值为1M
42dfs.hosts 可与名称节点连接的主机地址文件指定。
43dfs.hosts.exclude 不充计与名称节点连接的主机地址文件设定
44dfs.max.objects0文件数、目录数、块数的最大数量
45dfs.namenode.decommission.interval30名称节点解除命令执行时的监测时间周期
46dfs.namenode.decommission.nodes.per.interval5名称节点解除命令执行是否完检测次数
47dfs.replication.interval3名称节点计算数据节点的复制工作的周期数.
48dfs.access.time.precision3600000充许访问文件的时间精确到1小时
49dfs.support.appendfalse是否充许链接文件指定
50dfs.namenode.delegation.key.update-interval86400000名称节点上的代理令牌的主key的更新间隔时间为24小时
51dfs.namenode.delegation.token.max-lifetime604800000代理令牌的有效时间最大值为7天
52dfs.namenode.delegation.token.renew-interval86400000代理令牌的更新时间为24小时
53dfs.datanode.failed.volumes.tolerated0决定停止数据节点提供服务充许卷的出错次数。0次则任何卷出错都要停止数据节点

 

 

 

3.3  mapred-default.html

 

序号参数名参数值参数说明
1hadoop.job.history.location 作业跟踪管理器的静态历史文件的存放目录。
2hadoop.job.history.user.location 可以指定具体某个作业的跟踪管理器的历史文件存放目录
3mapred.job.tracker.history.completed.location 已完成作业的历史文件的存放目录
4io.sort.factor 10排完序的文件的合并时的打开文件句柄数
5io.sort.mb 100排序文件的内存缓存大小为100M
6io.sort.record.percent 0.05排序线程阻塞的内存缓存剩余比率
7io.sort.spill.percent 0.80当缓冲占用量为该值时,线程需要将内容先备份到磁盘中。
8io.map.index.skip 0索引条目的间隔设定
9mapred.job.tracker local作业跟踪管理器是否和MR任务在一个进程中
10mapred.job.tracker.http.address0.0.0.0:50030作业跟踪管理器的HTTP服务器访问端口和地址
11mapred.job.tracker.handler.count10作业跟踪管理器的管理线程数,线程数比例是任务管理跟踪器数量的0.04
12mapred.task.tracker.report.address127.0.0.1:0任务管理跟踪器的主机地址和端口地址

 

13mapred.local.dir${hadoop.tmp.dir}/mapred/localMR的中介数据文件存放目录
14mapred.system.dir${hadoop.tmp.dir}/mapred/systemMR的控制文件存放目录
15mapreduce.jobtracker.staging.root.dir${hadoop.tmp.dir}/mapred/staging每个正在运行作业文件的存放区
16mapred.temp.dir${hadoop.tmp.dir}/mapred/tempMR临时共享文件存放区
17mapred.local.dir.minspacestart0MR本地中介文件删除时,不充许有任务执行的数量值。
18mapred.local.dir.minspacekill0MR本地中介文件删除时,除非所有任务都已完成的数量值。
19mapred.tasktracker.expiry.interval600000任务管理跟踪器不发送心跳的累计时间间隔超过600秒,则任务管理跟踪器失效
20mapred.tasktracker.resourcecalculatorplugin 指定的一个用户访问资源信息的类实例
21mapred.tasktracker.taskmemorymanager.monitoring-interval5000监控任务管理跟踪器任务内存使用率的时间间隔
22mapred.tasktracker.tasks.sleeptime-before-sigkill5000发出进程终止后,间隔5秒后发出进程消亡信号

 

23mapred.map.tasks2每个作业缺省的map任务数为2
24mapred.reduce.tasks1每个作业缺省的reduce任务数为1
25mapreduce.tasktracker.outofband.heartbeatfalse让在任务结束后发出一个额外的心跳信号
26mapreduce.tasktracker.outofband.heartbeat.damper1000000当额外心跳信号发出量太多时,则适当阻止

 

27mapred.jobtracker.restart.recoverfalse充许任务管理器恢复时采用的方式
28mapred.jobtracker.job.history.block.size3145728作业历史文件块的大小为3M
29mapreduce.job.split.metainfo.maxsize10000000分隔元信息文件的最大值是10M以下

 

30mapred.jobtracker.taskSchedulerorg.apache.hadoop.mapred.JobQueueTaskScheduler设定任务的执行计划实现类
31mapred.jobtracker.taskScheduler.maxRunningTasksPerJob 作业同时运行的任务数的最大值
32mapred.map.max.attempts4Map任务的重试次数
33mapred.reduce.max.attempts4Reduce任务的重试次数
34mapred.reduce.parallel.copies5在复制阶段时reduce并行传送的值。
35mapreduce.reduce.shuffle.maxfetchfailures10取map输出的最大重试次数
36mapreduce.reduce.shuffle.connect.timeout180000REDUCE任务连接任务管理器获得map输出时的总耗时是3分钟

 

37mapreduce.reduce.shuffle.read.timeout180000REDUCE任务等待map输出数据的总耗时是3分钟
38mapred.task.timeout600000如果任务无读无写时的时间耗时为10分钟,将被终止
39mapred.tasktracker.map.tasks.maximum2任管管理器可同时运行map任务数为2
40mapred.tasktracker.reduce.tasks.maximum2任管管理器可同时运行reduce任务数为2
41mapred.jobtracker.completeuserjobs.maximum100当用户的完成作业数达100个后,将其放入作业历史文件中
42mapreduce.reduce.input.limit-1Reduce输入量的限制。
43mapred.job.tracker.retiredjobs.cache.size1000作业状态为已不在执行的保留在内存中的量为1000
44mapred.job.tracker.jobhistory.lru.cache.size5作业历史文件装载到内存的数量
45mapred.child.java.opts-Xmx200m启动task管理的子进程时的内存设置
46mapred.child.env 子进程的参数设置
47mapred.child.ulimit 虚拟机所需内存的设定。
48mapred.cluster.map.memory.mb-1 
49mapred.cluster.reduce.memory.mb-1 
50mapred.cluster.max.map.memory.mb-1 
51mapred.cluster.max.reduce.memory.mb-1 
52mapred.job.map.memory.mb-1 
53mapred.job.reduce.memory.mb-1 
54mapred.child.tmp/tmpMr任务信息的存放目录
55mapred.inmem.merge.threshold1000内存中的合并文件数设置
56mapred.job.shuffle.merge.percent0.66 
57mapred.job.shuffle.input.buffer.percent0.70 
58mapred.job.reduce.input.buffer.percent0.0 
59mapred.map.tasks.speculative.executiontrueMap任务的多实例并行运行标识
60mapred.reduce.tasks.speculative.executiontrueReduce任务的多实例并行运行标识
61mapred.job.reuse.jvm.num.tasks1每虚拟机运行的任务数
62mapred.min.split.size0Map的输入数据被分解的块数设置
63mapred.jobtracker.maxtasks.per.job-1一个单独作业的任务数设置
64mapred.submit.replication10提交作业文件的复制级别
65mapred.tasktracker.dns.interfacedefault任务管理跟踪器是否报告IP地址名的开关
66mapred.tasktracker.dns.nameserverdefault作业和任务管理跟踪器之间通讯方式采用的DNS服务的主机名或IP地址
67tasktracker.http.threads40http服务器的工作线程数量
68mapred.task.tracker.http.address0.0.0.0:50060任务管理跟踪器的http服务器的地址和端口
69keep.failed.task.filesfalse失败任务是否保存到文件中

 

70mapred.output.compressfalse作业的输出是否压缩
71mapred.output.compression.typeRECORD作业输出采用NONE, RECORD or BLOCK三种方式中一种压缩的写入到流式文件
72mapred.output.compression.codecorg.apache.hadoop.io.compress.DefaultCodec压缩类的设置
73mapred.compress.map.outputfalseMap的输出是否压缩
74mapred.map.output.compression.codecorg.apache.hadoop.io.compress.DefaultCodecMap的输出压缩的实现类指定
75map.sort.classorg.apache.hadoop.util.QuickSort排序键的排序类指定
76mapred.userlog.limit.kb0每个任务的用户日志文件大小
77mapred.userlog.retain.hours24作业完成后的用户日志留存时间为24小时
78mapred.user.jobconf.limit5242880Jobconf的大小为5M
79mapred.hosts 可与作业管理跟踪器连接的主机名
80mapred.hosts.exclude 不可与作业管理跟踪器连接的主机名
81mapred.heartbeats.in.second100作业管理跟踪器的每秒中到达的心跳数量为100
82mapred.max.tracker.blacklists4任务管理跟踪器的黑名单列表的数量
83mapred.jobtracker.blacklist.fault-timeout-window180任务管理跟踪器超时180分钟则訪任务将被重启
84mapred.jobtracker.blacklist.fault-bucket-width15 
85mapred.max.tracker.failures4任务管理跟踪器的失败任务数设定
86jobclient.output.filterFAILED控制任务的用户日志输出到作业端时的过滤方式
87mapred.job.tracker.persist.jobstatus.activefalse是否持久化作业管理跟踪器的信息
88mapred.job.tracker.persist.jobstatus.hours0持久化作业管理跟踪器的信息的保存时间
89mapred.job.tracker.persist.jobstatus.dir/jobtracker/jobsInfo作业管理跟踪器的信息存放目录
90mapreduce.job.complete.cancel.delegation.tokenstrue恢复时是否变更领牌
91mapred.task.profilefalse任务分析信息是否建设标志
92mapred.task.profile.maps0-2设置map任务的分析范围
93mapred.task.profile.reduces0-2设置reduce任务的分析范围
94mapred.line.input.format.linespermap1每次切分的行数设置
95mapred.skip.attempts.to.start.skipping2在跳转模式未被设定的情况下任务的重试次数
96mapred.skip.map.auto.incr.proc.counttrueMapRunner在调用map功能后的增量处理方式设置
97mapred.skip.reduce.auto.incr.proc.counttrue在调用reduce功能后的增量处理方式设置
98mapred.skip.out.dir 跳过记录的输出目录
99mapred.skip.map.max.skip.records0 
100mapred.skip.reduce.max.skip.groups0 
101job.end.retry.attempts0Hadoop偿试连接通知器的次数
102job.end.retry.interval30000通知偿试回应的间隔操作为30秒
103hadoop.rpc.socket.factory.class.JobSubmissionProtocol 指定与作业跟踪管理器的通讯方式,缺省是采用rpc方式
104mapred.task.cache.levels2任务缓存级别设置
105mapred.queue.namesdefault分隔作业队例的分隔符设定
106mapred.acls.enabledfalse指定ACL访问控制列表
107mapred.queue.default.stateRUNNING定义队列的状态
108mapred.job.queue.namedefault已提交作业的队列设定
109mapreduce.job.acl-modify-job 指定可修改作业的ACL列表
110mapreduce.job.acl-view-job 指定可浏临作业的ACL列表
111mapred.tasktracker.indexcache.mb10任务管理跟踪器的索引内存的最大容器
112mapred.combine.recordsBeforeProgress10000在聚合处理时的记录块数

 

113mapred.merge.recordsBeforeProgress10000在汇总处理时的记录块数
114mapred.reduce.slowstart.completed.maps0.05 
115mapred.task.tracker.task-controllerorg.apache.hadoop.mapred.DefaultTaskController任务管理器的设定
116mapreduce.tasktracker.group 任务管理器的组成员设定
117mapred.healthChecker.script.path 脚本的绝对路径指定,这些脚本是心跳服务的
118mapred.healthChecker.interval60000节点心跳信息的间隔
119mapred.healthChecker.script.timeout600000 
120mapred.healthChecker.script.args 参数列表

 

121mapreduce.job.counters.limit120作业计数器的最小值
    
    

 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值