日志输入输出、文件夹选项、http选项
日志和输入输出
-o logfile
把日志输出到logfile中,默认是输出到stderr中
-a logfile
把日志附加到logfile中, 默认是overwrite
-d
打开debug, 需要编译的支持
-q
关闭 wget的输出
-nv
No verbose
-i file
从file中读取url;如果 – 被指定为file,则从标注输入中读取urls; file可以不必是HTML格式,只要其中的
urls 顺序排列即可。 但如果使用了—force-html 选项, file将被认为是html,此时文件中的相对地址就会出现问
题,可以在file中加上<base href=”url”>、 或者在指令中用 –base=url 来指定 baseUrl(测验时,发现,其中
必须以http开头,否则不会被读取,下载)
-F
--force-html
当用 –i file 从文件中读取urls时, 把文件看成是HTML 格式的。
-B
--baseurl
把用 –i 选项读取的 相对url 在此基础上补充完整。
目录选项
-nd
--no-directories
不创建层次目录,而是全部放在当前目录中
-x
--force-derectories
与-nd 相反,创建层次目录,连host部分都创建。
-nH
--no-host-directories
不创建host部分的目录
--protocol-directories
创建协议部分的目录。
--cut-dirs=number
忽略掉一些(顶部的)目录层次;
-P
--directory-prefix=prefix
设置基目录。
HTTP选项
--html-extension
If a file of type application/xhtml+xml or text/html is downloaded and the URL does not end with
.html; this option will cause the suffix .html to be appended to the local filename.
A.jsp 将会保存成A.jsp.html
存在一个问题是, 当重新下载时,wget不会认为a.jsp 已经下载了,从而会重新下载。要避免这种情况,需要与
-K 选项同时使用。这样,原始的文件就会被存为 a.jsp
--ignore-length
忽略掉 Content-Length 标签。
--header=header-line
主动增加用户定制的header
--referer
增加referer
--save-headers
保存header部分到下载的文件中。
-U agent-string
--user-agent=agent-string
设置Requst的 user-agent 信息,否则某人是 wget/version
--post-data
--post-file
--bind-address=ADDRES
-t number
--tries=number
设置重试的次数为number; 指定0或者inf表示无限次;默认是重试20次; 当出现 connection refused 或者
404 not found等严重错误时,不再重试
-O file
--output-document=file
得到的documents将不会被放到合适的文件中, 而是全部集中写入到 file中。
注意:当和-k 选项同时使用时,只对下载单一的文档有效。
-nc
--no-clobber
同一个目录中的 文件被多次下载时, wget的行为依赖于多个选项, 包括-nc; 一般情况下,在一个文件多次下载
时, 本地文件将被重写,或者clobber,其它情况下被保留。
当不加 –N, -nc, -r 选项运行wget时, 同目录下同名的file,在多次下载后,原来的文件还会被保留,新下载
的被命名为 file.1,file.2
当 –nc 选项被使用时,默认的行为被改变, wget将不会重新下载同名文件。
当 –r 但没有 –N –nc 时,新下载的同名文件将会 直接重写旧的;
-r –nc 一同使用时,旧的文件被保存,服务器上的同名新文件被忽略。
-N 选项被使用时,无论是否有-r 选项,是否重新下载同名文件依赖于 本地文件的时间戳与服务器上文件的时间
戳 和文件大小的对比; -nc 选项不能与-N 选项同时使用。
当-nc 选项被指定时,以.html .htm 结尾的文件会被认为已经从服务器上取得了(同名的文件将不会再次下载)
-c
--continue
继续下载一个 被下载了一部分的 文件。
这个continue是基于 文件长度的;
-c 选项只适用于 FTP 服务器和 支持 Range 头的服务器。
--progress
提示下载的进度
-N
比较本地文件于服务器上同名文件的时间戳
-S
--server-response
打印http Server 返回的 headers
-spider
只检测 urls是否可用,而不真正下载网页;
-T seconds
--timeout=seconds
设置网络超时时间,把--dns-timeout, --connect-timeout, --read-timeout 都设置为senconds
默认是900秒 read timeout,设置为0以为着取消了超时设置。
--limit-rate=aumout
设置下载的速率,当达到这个速率时,休息一段时间。
-w seconds
--wait=sencods
在两次retrieve时,等待 sencods时间; 从而减轻服务器的负载
--waitretry=seconds
如果不希望wget在每两次 retrieve时都等待 seconds的时间,而只是在 出错retry时才等待; wget使用线型递
增策略, 第一次失败等1秒、第二次失败等2秒, 因此10意味着wget将等待 1+2+。。。+10 =55秒
--random-wait
两次请求间隔 0.5*wait ---- 1.5*wait 之间的一个随机时间间隔。
--no-proxy
不使用proxy
-Q quota
--quota=quota
下载的总量限制
--no-dns-cache
不实用dns缓存。
--restrict-file-names=mode
把下载回来的文件的名字 改变。
--restrict-file-names=nocontrol 用在unix上, --restrict-file-names=windows 用在windows上。
--retry-connrefused
Consider ‘‘connection refused’’ a transient error and try again。 默认清空下,不再重试。
日志和输入输出
-o logfile
把日志输出到logfile中,默认是输出到stderr中
-a logfile
把日志附加到logfile中, 默认是overwrite
-d
打开debug, 需要编译的支持
-q
关闭 wget的输出
-nv
No verbose
-i file
从file中读取url;如果 – 被指定为file,则从标注输入中读取urls; file可以不必是HTML格式,只要其中的
urls 顺序排列即可。 但如果使用了—force-html 选项, file将被认为是html,此时文件中的相对地址就会出现问
题,可以在file中加上<base href=”url”>、 或者在指令中用 –base=url 来指定 baseUrl(测验时,发现,其中
必须以http开头,否则不会被读取,下载)
-F
--force-html
当用 –i file 从文件中读取urls时, 把文件看成是HTML 格式的。
-B
--baseurl
把用 –i 选项读取的 相对url 在此基础上补充完整。
目录选项
-nd
--no-directories
不创建层次目录,而是全部放在当前目录中
-x
--force-derectories
与-nd 相反,创建层次目录,连host部分都创建。
-nH
--no-host-directories
不创建host部分的目录
--protocol-directories
创建协议部分的目录。
--cut-dirs=number
忽略掉一些(顶部的)目录层次;
-P
--directory-prefix=prefix
设置基目录。
HTTP选项
--html-extension
If a file of type application/xhtml+xml or text/html is downloaded and the URL does not end with
.html; this option will cause the suffix .html to be appended to the local filename.
A.jsp 将会保存成A.jsp.html
存在一个问题是, 当重新下载时,wget不会认为a.jsp 已经下载了,从而会重新下载。要避免这种情况,需要与
-K 选项同时使用。这样,原始的文件就会被存为 a.jsp
--ignore-length
忽略掉 Content-Length 标签。
--header=header-line
主动增加用户定制的header
--referer
增加referer
--save-headers
保存header部分到下载的文件中。
-U agent-string
--user-agent=agent-string
设置Requst的 user-agent 信息,否则某人是 wget/version
--post-data
--post-file
--bind-address=ADDRES
-t number
--tries=number
设置重试的次数为number; 指定0或者inf表示无限次;默认是重试20次; 当出现 connection refused 或者
404 not found等严重错误时,不再重试
-O file
--output-document=file
得到的documents将不会被放到合适的文件中, 而是全部集中写入到 file中。
注意:当和-k 选项同时使用时,只对下载单一的文档有效。
-nc
--no-clobber
同一个目录中的 文件被多次下载时, wget的行为依赖于多个选项, 包括-nc; 一般情况下,在一个文件多次下载
时, 本地文件将被重写,或者clobber,其它情况下被保留。
当不加 –N, -nc, -r 选项运行wget时, 同目录下同名的file,在多次下载后,原来的文件还会被保留,新下载
的被命名为 file.1,file.2
当 –nc 选项被使用时,默认的行为被改变, wget将不会重新下载同名文件。
当 –r 但没有 –N –nc 时,新下载的同名文件将会 直接重写旧的;
-r –nc 一同使用时,旧的文件被保存,服务器上的同名新文件被忽略。
-N 选项被使用时,无论是否有-r 选项,是否重新下载同名文件依赖于 本地文件的时间戳与服务器上文件的时间
戳 和文件大小的对比; -nc 选项不能与-N 选项同时使用。
当-nc 选项被指定时,以.html .htm 结尾的文件会被认为已经从服务器上取得了(同名的文件将不会再次下载)
-c
--continue
继续下载一个 被下载了一部分的 文件。
这个continue是基于 文件长度的;
-c 选项只适用于 FTP 服务器和 支持 Range 头的服务器。
--progress
提示下载的进度
-N
比较本地文件于服务器上同名文件的时间戳
-S
--server-response
打印http Server 返回的 headers
-spider
只检测 urls是否可用,而不真正下载网页;
-T seconds
--timeout=seconds
设置网络超时时间,把--dns-timeout, --connect-timeout, --read-timeout 都设置为senconds
默认是900秒 read timeout,设置为0以为着取消了超时设置。
--limit-rate=aumout
设置下载的速率,当达到这个速率时,休息一段时间。
-w seconds
--wait=sencods
在两次retrieve时,等待 sencods时间; 从而减轻服务器的负载
--waitretry=seconds
如果不希望wget在每两次 retrieve时都等待 seconds的时间,而只是在 出错retry时才等待; wget使用线型递
增策略, 第一次失败等1秒、第二次失败等2秒, 因此10意味着wget将等待 1+2+。。。+10 =55秒
--random-wait
两次请求间隔 0.5*wait ---- 1.5*wait 之间的一个随机时间间隔。
--no-proxy
不使用proxy
-Q quota
--quota=quota
下载的总量限制
--no-dns-cache
不实用dns缓存。
--restrict-file-names=mode
把下载回来的文件的名字 改变。
--restrict-file-names=nocontrol 用在unix上, --restrict-file-names=windows 用在windows上。
--retry-connrefused
Consider ‘‘connection refused’’ a transient error and try again。 默认清空下,不再重试。