Wget创建站点镜像
wget --keep-session-cookies \
--load-cookies=cookie.txt \
-r -l 1 -p -np -k \
--no-check-certificate "https://baidu.com"
参数说明
wget
是一个强大的非交互式文件下载工具,用于从互联网上抓取文件。你给出的命令行参数是用于递归下载网站的内容,并且处理cookies。下面是对这些参数的详细解释:
-
--keep-session-cookies
: 这个选项告诉wget
在会话结束时不要删除任何cookies。这通常用于保持登录状态或处理需要持久化cookies的情况。 -
--load-cookies=cookie.txt
: 指定一个cookies文件(例如cookie
),wget
将从这个文件加载cookies信息,以便在请求中使用。这可以用来恢复之前的会话状态或者提供必要的身份验证信息。 -
-r
: 开启递归下载模式,即wget
会尝试下载指定URL及其所有链接到的页面和资源。 -
-l 1
: 设置递归下载的深度限制为1。这意味着wget
只会下载直接从初始URL链接到的页面,而不会深入到更深层次的链接。 -
-p
: 尝试下载所有网页的关联文件,如图片、样式表、JavaScript等,以实现完整的网页渲染效果。 -
-np
: 不创建父目录。即使链接指向一个在本地不存在的目录结构,wget
也不会尝试创建它。所有的文件都将被保存在当前工作目录或由-P
选项指定的目录下。 -
-k
: 转换链接使其指向本地文件。这使得下载的页面可以在离线环境下正确地引用其他资源。 -
--no-check-certificate
: 在使用HTTPS协议时禁用SSL证书检查。这可以避免与不受信任或自签名证书相关的警告,但同时也降低了安全性,因为连接可能被中间人攻击。
综合起来,这个命令将从指定的URL开始,递归地下载一级链接内的所有页面和相关资源,同时使用并保存cookies信息,忽略SSL证书检查,且优化链接使其适用于本地查看。请注意,在使用--no-check-certificate
时要谨慎
Cookie 文件
Wget 使用 Netscape’s cookies.txt file.
使用Chrome浏览器插件 EditThisCookie
转换,在设置页选择 Netscape 输出格式: