使用wget下载整个网页

23 篇文章 0 订阅
17 篇文章 0 订阅

wget -r -p -k -np -t 5 http://hao.360.cn

 

 

虽然很好用,但是还是有不少局限性.

 

1. 不能解析CSS文件中 包含的图片信息 例如使用 @import 或者url等等导入的东西

 

2. 不能解析JS中动态写入的资源文件,对于Ajax载入的根本就无从弹起,可能模仿的不是http请求有关

 

3. 她是从取出来的数据流中去解析文件内引用的资源信息,而非使用Dom解析的方式来获取信息

 

4. 中文资源太少

 

优势:

 

1. 开源,免费 [切记: 开源 != 免费]

 

2. 实用,功能强劲 大多数系统平台上都有实现.

 

3. 可以与其他的工具无缝集成.通过PHP可以实现很多东西.我一般都是使用PHP来取代原始的shell脚本.

 

4. 单文件,很小. 可以作为自己的工具箱中的一员 

 

 

注意:

 

1. Wget1.5的windows版本不支持-p选项,我提供的这个版本是1.11.4,提供-p选项

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
wget是一个强大的网络文件下载工具,它可以用来下载整个网站的内容,包括HTML、CSS、JavaScript、图片等。要使用wget下载整个网站,通常需要按照以下步骤操作: 1. **获取URL**:首先确定你要下载的网站的主URL。 2. **访问目录结构**:有些网站会提供一个名为`sitemap.xml`或`sitemap.txt`的文件,列出所有网页链接。如果没有,你可以在浏览器中打开网站的根目录(通常是域名)并查看源代码找到页面链接。 3. **创建下载命令**:使用wget下载每个链接。例如,如果你已经知道了部分链接,可以这样写: ``` wget [网址] -r -np -nH --cut-dirs=1 --reject="index.html*" --mirror ``` 这里的参数含义: - `-r` 表示递归下载子目录中的内容。 - `-np` 阻止wget进入父级目录。 - `-nH` 不保留符号链接。 - `--cut-dirs=1` 去除第一个目录层级,让下载后的内容直接放在当前目录下。 - `--reject` 可以排除不需要下载的文件类型,如指定不下载`.html`以外的文件。 - `--mirror` 全面镜像网站,包含所有的静态资源。 4. **执行下载**:保存上述命令到一个文件(如download.sh),然后用`chmod +x download.sh`使它可执行,并运行`./download.sh`开始下载。 注意,这可能会消耗大量时间和带宽,而且不是所有网站都支持被下载,有些可能设置为不允许爬虫抓取。因此,在实际操作前,请务必遵守网站的robots.txt规则和使用条款。另外,如果你关心隐私,可能需要检查网站是否收集个人信息以及下载内容是否存在版权问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值