Hadoop配置文件表(如需要请下载附件)

 

HDFS    
参数描述默认配置文件例子值
fs.default.name namenode RPC交互端口8020core-site.xmlhdfs://master:8020/
dfs.http.address NameNode web管理端口50070hdfs- site.xml0.0.0.0:50070
dfs.datanode.addressdatanode 控制端口50010hdfs -site.xml 0.0.0.0:50010
dfs.datanode.ipc.addressdatanode的RPC服务器地址和端口50020hdfs-site.xml0.0.0.0:50020
dfs.datanode.http.addressdatanode的HTTP服务器和端口50075hdfs-site.xml 0.0.0.0:50075
MapReduce    
参数描述默认配置文件例子值
mapred.job.trackerjob-tracker交互端口 8021mapred-site.xmlhdfs://master:8021/
jobtracker的web管理端口50030mapred-site.xml0.0.0.0:50030
mapred.task.tracker.http.addresstask-tracker的HTTP端口50060mapred-site.xml0.0.0.0:50060
其他端口    
参数描述默认配置文件例子值
dfs.secondary.http.addresssecondary NameNode web管理端口50090hdfs-site.xml0.0.0.0:50090
core-default.html    
参数名参数值参数说明  
hadoop.tmp.dir                     /tmp/hadoop-${user.name}                             临时目录设定  
hadoop.native.lib                  true                                                 使用本地hadoop库标识。  
hadoop.http.filter.initializers                                                         http服务器过滤链设置                           
hadoop.security.group.mapping   org.apache.hadoop.security.ShellBasedUnixGroupsMapping组内用户的列表的类设定  
hadoop.security.authorization      false                                                服务端认证开启  
hadoop.security.authentication   simple                                                无认证或认证设置  
hadoop.security.token.service.use_iptrue                                                 是否开启使用IP地址作为连接的开关  
hadoop.logfile.size                10000000日志文件最大为10M  
hadoop.logfile.count10日志文件数量为10个  
io.file.buffer.size4096流文件的缓冲区为4K  
io.bytes.per.checksum512校验位数为512字节  
io.skip.checksum.errorsfalse校验出错后是抛出异常还是略过标识。True则略过。  
io.compression.codecsorg.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.SnappyCodec
压缩和解压的方式设置  
io.serializationsorg.apache.hadoop.io.serializer.WritableSerialization序例化和反序列化的类设定  
fs.default.namefile:///                                            缺省的文件URI标识设定。  
fs.trash.interval0文件废弃标识设定,0为禁止此功能  
fs.file.implorg.apache.hadoop.fs.LocalFileSystem                本地文件操作类设置  
fs.hdfs.implorg.apache.hadoop.hdfs.DistributedFileSystem        HDFS文件操作类设置  
fs.s3.implorg.apache.hadoop.fs.s3.S3FileSystem                S3文件操作类设置  
fs.s3n.impl             org.apache.hadoop.fs.s3native.NativeS3FileSystemS3文件本地操作类设置  
fs.kfs.impl             org.apache.hadoop.fs.kfs.KosmosFileSystemKFS文件操作类设置.   
fs.hftp.impl            org.apache.hadoop.hdfs.HftpFileSystemHTTP方式操作文件设置  
fs.hsftp.impl           org.apache.hadoop.hdfs.HsftpFileSystemHTTPS方式操作文件设置  
fs.webhdfs.impl         org.apache.hadoop.hdfs.web.WebHdfsFileSystemWEB方式操作文件类设置  
fs.ftp.impl             org.apache.hadoop.fs.ftp.FTPFileSystemFTP文件操作类设置  
fs.ramfs.impl           org.apache.hadoop.fs.InMemoryFileSystem内存文件操作类设置  
fs.har.impl             org.apache.hadoop.fs.HarFileSystem压缩文件操作类设置.  
fs.har.impl.disable.cachetrue是否缓存har文件的标识设定  
fs.checkpoint.dir       ${hadoop.tmp.dir}/dfs/namesecondary备份名称节点的存放目前录设置  
fs.checkpoint.edits.dir     ${fs.checkpoint.dir}备份名称节点日志文件的存放目前录设置  
fs.checkpoint.period        3600动态检查的间隔时间设置  
fs.checkpoint.size          67108864日志文件大小为64M  
fs.s3.block.size            67108864写S3文件系统的块的大小为64M  
fs.s3.buffer.dir            ${hadoop.tmp.dir}/s3S3文件数据的本地存放目录  
fs.s3.maxRetries            4S3文件数据的偿试读写次数  
fs.s3.sleepTimeSeconds      10S3文件偿试的间隔  
local.cache.size            10737418240缓存大小设置为10GB  
io.seqfile.compress.blocksize1000000压缩流式文件中的最小块数为100万  
io.seqfile.lazydecompress   true块是否需要压缩标识设定  
io.seqfile.sorter.recordlimit1000000内存中排序记录块类最小为100万  
io.mapfile.bloom.size1048576BloomMapFiler过滤量为1M  
io.mapfile.bloom.error.rate0.005   
hadoop.util.hash.typemurmur缺少hash方法为murmur  
ipc.client.idlethreshold4000连接数据最小阀值为4000   
ipc.client.kill.max10一个客户端连接数最大值为10  
ipc.client.connection.maxidletime10000断开与服务器连接的时间最大为10秒  
ipc.client.connect.max.retries10建立与服务器连接的重试次数为10次  
ipc.server.listen.queue.size128接收客户连接的监听队例的长度为128  
ipc.server.tcpnodelayfalse开启或关闭服务器端TCP连接算法  
ipc.client.tcpnodelayfalse开启或关闭客户端TCP连接算法  
webinterface.private.actionsfalseWeb交互的行为设定
 
  
hadoop.rpc.socket.factory.class.default    org.apache.hadoop.net.StandardSocketFactory缺省的socket工厂类设置  
hadoop.rpc.socket.factory.class.ClientProtocol 与dfs连接时的缺省socket工厂类  
hadoop.socks.server                           服务端的工厂类缺省设置为SocksSocketFactory.  
topology.node.switch.mapping.impl            org.apache.hadoop.net.ScriptBasedMapping   
topology.script.file.name                        
topology.script.number.args                100参数数量最多为100  
hadoop.security.uid.cache.secs            14400   
hdfs-default.html    
参数名参数值参数说明  
dfs.namenode.logging.level       info         输出日志类型  
dfs.secondary.http.address     0.0.0.0:50090备份名称节点的http协议访问地址与端口                                                                                      
dfs.datanode.address             0.0.0.0:50010数据节点的TCP管理服务地址和端口  
dfs.datanode.http.address        0.0.0.0:50075数据节点的HTTP协议访问地址和端口  
dfs.datanode.ipc.address         0.0.0.0:50020数据节点的IPC服务访问地址和端口  
dfs.datanode.handler.count       3数据节点的服务连接处理线程数  
dfs.http.address                 0.0.0.0:50070名称节点的http协议访问地址与端口  
dfs.https.enable                 false        支持https访问方式标识  
dfs.https.need.client.auth       false        客户端指定https访问标识  
dfs.https.server.keystore.resourcessl-server.xmlSsl密钥服务端的配置文件  
dfs.https.client.keystore.resourcessl-client.xmlSsl密钥客户端的配置文件  
dfs.datanode.https.address       0.0.0.0:50475数据节点的HTTPS协议访问地址和端口  
dfs.https.address                0.0.0.0:50470名称节点的HTTPS协议访问地址和端口  
dfs.datanode.dns.interface       default      数据节点采用IP地址标识  
dfs.datanode.dns.nameserver      default      指定DNS的IP地址  
dfs.replication.considerLoad     true         加载目标或不加载的标识  
dfs.default.chunk.view.size      32768浏览时的文件块大小设置为32K  
dfs.datanode.du.reserved         0每个卷预留的空闲空间数量  
dfs.name.dir                     ${hadoop.tmp.dir}/dfs/name存贮在本地的名字节点数据镜象的目录,作为名字节点的冗余备份  
dfs.name.edits.dir               ${dfs.name.dir}          存贮文件操作过程信息的存贮目录  
dfs.web.ugi                      webuser,webgroup         Web接口访问的用户名和组的帐户设定  
dfs.permissions                  true                     文件操作时的权限检查标识。  
dfs.permissions.supergroup       supergroup               超级用户的组名定义  
dfs.block.access.token.enable    false                    数据节点访问令牌标识  
dfs.block.access.key.update.interval600升级访问钥时的间隔时间  
dfs.block.access.token.lifetime    600访问令牌的有效时间  
dfs.data.dir                        ${hadoop.tmp.dir}/dfs/data数据节点的块本地存放目录  
dfs.datanode.data.dir.perm         755数据节点的存贮块的目录访问权限设置  
dfs.replication                    3缺省的块复制数量  
dfs.replication.max                 512块复制的最大数量  
dfs.replication.min                1块复制的最小数量   
dfs.block.size                     67108864缺省的文件块大小为64M  
dfs.df.interval                    60000磁盘空间统计间隔为6秒  
dfs.client.block.write.retries     3块写入出错时的重试次数  
dfs.blockreport.intervalMsec       3600000块的报告间隔时为1小时  
dfs.blockreport.initialDelay       0块顺序报告的间隔时间  
dfs.heartbeat.interval             3数据节点的心跳检测间隔时间  
dfs.namenode.handler.count         10名称节点的连接处理的线程数量  
dfs.safemode.threshold.pct  0.999f                   启动安全模式的阀值设定
 
  
dfs.safemode.extension             30000当阀值达到量值后扩展的时限  
dfs.balance.bandwidthPerSec        1048576启动负载均衡的数据节点可利用带宽最大值为1M  
dfs.hosts                           可与名称节点连接的主机地址文件指定。  
dfs.hosts.exclude                   不充计与名称节点连接的主机地址文件设定  
dfs.max.objects                    0文件数、目录数、块数的最大数量  
dfs.namenode.decommission.interval 30名称节点解除命令执行时的监测时间周期  
dfs.namenode.decommission.nodes.per.interval5名称节点解除命令执行是否完检测次数  
dfs.replication.interval                   3名称节点计算数据节点的复制工作的周期数.  
dfs.access.time.precision               3600000充许访问文件的时间精确到1小时  
dfs.support.append                         false   是否充许链接文件指定  
dfs.namenode.delegation.key.update-interval86400000名称节点上的代理令牌的主key的更新间隔时间为24小时  
dfs.namenode.delegation.token.max-lifetime 604800000代理令牌的有效时间最大值为7天  
dfs.namenode.delegation.token.renew-interval86400000代理令牌的更新时间为24小时  
dfs.datanode.failed.volumes.tolerated0决定停止数据节点提供服务充许卷的出错次数。0次则任何卷出错都要停止数据节点  
mapred-default.html    
参数名参数值参数说明  
hadoop.job.history.location 作业跟踪管理器的静态历史文件的存放目录。  
hadoop.job.history.user.location 可以指定具体某个作业的跟踪管理器的历史文件存放目录  
mapred.job.tracker.history.completed.location 已完成作业的历史文件的存放目录  
io.sort.factor10排完序的文件的合并时的打开文件句柄数  
io.sort.mb100排序文件的内存缓存大小为100M  
io.sort.record.percent0.05排序线程阻塞的内存缓存剩余比率  
io.sort.spill.percent0.8当缓冲占用量为该值时,线程需要将内容先备份到磁盘中。  
io.map.index.skip0索引条目的间隔设定  
mapred.job.tracker local      作业跟踪管理器是否和MR任务在一个进程中  
mapred.job.tracker.http.address0.0.0.0:50030作业跟踪管理器的HTTP服务器访问端口和地址  
mapred.job.tracker.handler.count          10作业跟踪管理器的管理线程数,线程数比例是任务管理跟踪器数量的0.04  
mapred.task.tracker.report.address    127.0.0.1:0任务管理跟踪器的主机地址和端口地址
 
  
mapred.local.dir                          ${hadoop.tmp.dir}/mapred/local MR的中介数据文件存放目录  
mapred.system.dir                         ${hadoop.tmp.dir}/mapred/systemMR的控制文件存放目录  
mapreduce.jobtracker.staging.root.dir     ${hadoop.tmp.dir}/mapred/staging每个正在运行作业文件的存放区  
mapred.temp.dir                           ${hadoop.tmp.dir}/mapred/temp  MR临时共享文件存放区     
mapred.local.dir.minspacestart            0MR本地中介文件删除时,不充许有任务执行的数量值。  
mapred.local.dir.minspacekill             0MR本地中介文件删除时,除非所有任务都已完成的数量值。  
mapred.tasktracker.expiry.interval600000任务管理跟踪器不发送心跳的累计时间间隔超过600秒,则任务管理跟踪器失效  
mapred.tasktracker.resourcecalculatorplugin 指定的一个用户访问资源信息的类实例  
mapred.tasktracker.taskmemorymanager.monitoring-interval5000监控任务管理跟踪器任务内存使用率的时间间隔  
mapred.tasktracker.tasks.sleeptime-before-sigkill      5000发出进程终止后,间隔5秒后发出进程消亡信号
 
  
mapred.map.tasks                                       2每个作业缺省的map任务数为2  
mapred.reduce.tasks                                  1每个作业缺省的reduce任务数为1  
mapreduce.tasktracker.outofband.heartbeat              false  让在任务结束后发出一个额外的心跳信号  
mapreduce.tasktracker.outofband.heartbeat.damper       1000000当额外心跳信号发出量太多时,则适当阻止
 
  
mapred.jobtracker.restart.recover                   false  充许任务管理器恢复时采用的方式  
mapred.jobtracker.job.history.block.size           3145728作业历史文件块的大小为3M   
mapreduce.job.split.metainfo.maxsize               10000000分隔元信息文件的最大值是10M以下
 
  
mapred.jobtracker.taskScheduler                     org.apache.hadoop.mapred.JobQueueTaskScheduler设定任务的执行计划实现类  
mapred.jobtracker.taskScheduler.maxRunningTasksPerJob 作业同时运行的任务数的最大值  
mapred.map.max.attempts                             4Map任务的重试次数  
mapred.reduce.max.attempts                          4Reduce任务的重试次数  
mapred.reduce.parallel.copies                        5在复制阶段时reduce并行传送的值。  
mapreduce.reduce.shuffle.maxfetchfailures           10取map输出的最大重试次数  
mapreduce.reduce.shuffle.connect.timeout            180000REDUCE任务连接任务管理器获得map输出时的总耗时是3分钟          
 
  
mapreduce.reduce.shuffle.read.timeout               180000REDUCE任务等待map输出数据的总耗时是3分钟  
mapred.task.timeout                                 600000如果任务无读无写时的时间耗时为10分钟,将被终止  
mapred.tasktracker.map.tasks.maximum              2任管管理器可同时运行map任务数为2  
mapred.tasktracker.reduce.tasks.maximum            2任管管理器可同时运行reduce任务数为2  
mapred.jobtracker.completeuserjobs.maximum 100当用户的完成作业数达100个后,将其放入作业历史文件中  
mapreduce.reduce.input.limit               -1Reduce输入量的限制。  
mapred.job.tracker.retiredjobs.cache.size  1000作业状态为已不在执行的保留在内存中的量为1000  
mapred.job.tracker.jobhistory.lru.cache.size5作业历史文件装载到内存的数量  
mapred.child.java.opts                     -Xmx200m启动task管理的子进程时的内存设置  
mapred.child.env                                  子进程的参数设置  
mapred.child.ulimit                               虚拟机所需内存的设定。  
mapred.cluster.map.memory.mb               -1   
mapred.cluster.reduce.memory.mb            -1   
mapred.cluster.max.map.memory.mb           -1   
mapred.cluster.max.reduce.memory.mb        -1   
mapred.job.map.memory.mb                   -1   
mapred.job.reduce.memory.mb                -1   
mapred.child.tmp                           /tmp   Mr任务信息的存放目录  
mapred.inmem.merge.threshold               1000内存中的合并文件数设置  
mapred.job.shuffle.merge.percent           0.66                                                                                       
mapred.job.shuffle.input.buffer.percent    0.7   
mapred.job.reduce.input.buffer.percent     0   
mapred.map.tasks.speculative.execution     true   Map任务的多实例并行运行标识  
mapred.reduce.tasks.speculative.execution  true   Reduce任务的多实例并行运行标识  
mapred.job.reuse.jvm.num.tasks1每虚拟机运行的任务数  
mapred.min.split.size0Map的输入数据被分解的块数设置  
mapred.jobtracker.maxtasks.per.job-1一个单独作业的任务数设置  
mapred.submit.replication10提交作业文件的复制级别  
mapred.tasktracker.dns.interfacedefault     任务管理跟踪器是否报告IP地址名的开关   
mapred.tasktracker.dns.nameserverdefault     作业和任务管理跟踪器之间通讯方式采用的DNS服务的主机名或IP地址  
tasktracker.http.threads40http服务器的工作线程数量  
mapred.task.tracker.http.address0.0.0.0:50060任务管理跟踪器的http服务器的地址和端口  
keep.failed.task.filesfalse       失败任务是否保存到文件中
 
  
mapred.output.compressfalse       作业的输出是否压缩  
mapred.output.compression.typeRECORD      作业输出采用NONE, RECORD or BLOCK三种方式中一种压缩的写入到流式文件  
mapred.output.compression.codecorg.apache.hadoop.io.compress.DefaultCodec压缩类的设置  
mapred.compress.map.outputfalse                                    Map的输出是否压缩  
mapred.map.output.compression.codecorg.apache.hadoop.io.compress.DefaultCodecMap的输出压缩的实现类指定  
map.sort.classorg.apache.hadoop.util.QuickSort         排序键的排序类指定  
mapred.userlog.limit.kb0每个任务的用户日志文件大小  
mapred.userlog.retain.hours24作业完成后的用户日志留存时间为24小时  
mapred.user.jobconf.limit5242880Jobconf的大小为5M  
mapred.hosts                                         可与作业管理跟踪器连接的主机名  
mapred.hosts.exclude                                          不可与作业管理跟踪器连接的主机名  
mapred.heartbeats.in.second                    100作业管理跟踪器的每秒中到达的心跳数量为100  
mapred.max.tracker.blacklists                  4任务管理跟踪器的黑名单列表的数量  
mapred.jobtracker.blacklist.fault-timeout-window180任务管理跟踪器超时180分钟则訪任务将被重启  
mapred.jobtracker.blacklist.fault-bucket-width 15   
mapred.max.tracker.failures                  4任务管理跟踪器的失败任务数设定  
jobclient.output.filter                        FAILED             控制任务的用户日志输出到作业端时的过滤方式  
mapred.job.tracker.persist.jobstatus.active    false              是否持久化作业管理跟踪器的信息  
mapred.job.tracker.persist.jobstatus.hours     0持久化作业管理跟踪器的信息的保存时间  
mapred.job.tracker.persist.jobstatus.dir       /jobtracker/jobsInfo作业管理跟踪器的信息存放目录  
mapreduce.job.complete.cancel.delegation.tokenstrue               恢复时是否变更领牌     
mapred.task.profile                            false              任务分析信息是否建设标志  
mapred.task.profile.maps                       0-2                设置map任务的分析范围  
mapred.task.profile.reduces                    0-2                设置reduce任务的分析范围  
mapred.line.input.format.linespermap          1每次切分的行数设置  
mapred.skip.attempts.to.start.skipping         2在跳转模式未被设定的情况下任务的重试次数                                                                                      
mapred.skip.map.auto.incr.proc.count           true               MapRunner在调用map功能后的增量处理方式设置  
mapred.skip.reduce.auto.incr.proc.count       true               在调用reduce功能后的增量处理方式设置  
mapred.skip.out.dir                                                跳过记录的输出目录  
mapred.skip.map.max.skip.records            0   
mapred.skip.reduce.max.skip.groups           0   
job.end.retry.attempts                         0Hadoop偿试连接通知器的次数    
job.end.retry.interval                        30000通知偿试回应的间隔操作为30秒  
hadoop.rpc.socket.factory.class.JobSubmissionProtocol 指定与作业跟踪管理器的通讯方式,缺省是采用rpc方式  
mapred.task.cache.levels                            2任务缓存级别设置  
mapred.queue.names                               default分隔作业队例的分隔符设定  
mapred.acls.enabled                                 false 指定ACL访问控制列表  
mapred.queue.default.state                           RUNNING定义队列的状态  
mapred.job.queue.name                            default已提交作业的队列设定  
mapreduce.job.acl-modify-job                              指定可修改作业的ACL列表  
mapreduce.job.acl-view-job                                指定可浏临作业的ACL列表  
mapred.tasktracker.indexcache.mb                10任务管理跟踪器的索引内存的最大容器  
mapred.combine.recordsBeforeProgress             10000在聚合处理时的记录块数
 
  
mapred.merge.recordsBeforeProgress             10000在汇总处理时的记录块数  
mapred.reduce.slowstart.completed.maps           0.05   
mapred.task.tracker.task-controller              org.apache.hadoop.mapred.DefaultTaskController任务管理器的设定  
mapreduce.tasktracker.group                                                                    任务管理器的组成员设定  
mapred.healthChecker.script.path                                                              脚本的绝对路径指定,这些脚本是心跳服务的  
mapred.healthChecker.interval                    60000节点心跳信息的间隔  
mapred.healthChecker.script.timeout               600000   
mapred.healthChecker.script.args                                                                参数列表
 
  
mapreduce.job.counters.limit                         120作业计数器的最小值  
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值