Python爬虫—wget的基本用法

wget

Linux wget是一个下载文件的工具,它用在命令行下。对于Linux用户是必不可少的工具,尤其对于网络管理员,经常要下载一些软件或从远程服务器恢复备份到本地服务器。如果我们使用虚拟主机,处理这样的事务我们只能先从远程服务器下载到我们电脑磁盘,然后再用ftp工具上传到服务器。这样既浪费时间又浪费精力,那不没办法的事。而到了Linux VPS,它则可以直接下载到服务器而不用经过上传这一步。wget工具体积小但功能完善,它支持断点下载功能,同时支持FTP和HTTP下载方式,支持代理服务器和设置起来方便简单。

wget的安装

apt install wget

一些常用参数的用法

参数说明示例
-O以指定文件名保存下载的文件wget -O test.png http://httpbin.org/image/png
–limit-rate以指定的速度下载目标文件–limit-rate=200k
-c断点续传wget -c --limit-rate=200k https://ks-xpc4.xpccdn.com/0580faef-a882-4482-8761-57f6ebd7746a.mp4
-b在后台下载wget -bc --limit-rate=200k https://ks-xpc4.xpccdn.com/0580faef-a882-4482-8761-57f6ebd7746a.mp4
-U设置User-Agentwget --mirror -U “Mozilla” -p https://requests.readthedocs.io/
–mirror镜像某个目标网站wget --mirror -U “Mozilla” -p https://requests.readthedocs.io/
-p下载页面中的所有相关资源wget --mirror -U “Mozilla” -p https://requests.readthedocs.io/
-r递归下载所有网页中所有的链接
–convert-links下载后,转换成本地的链接wget --mirror -U “Mozilla” -p --convert-links https://requests.readthedocs.io/

-O 以指定文件名保存下载的文件

wget -O test.png http://httpbin.org/image/png
在这里插入图片描述

–limit-rate 限制网速只有20k的下载速度下载视频文件

wget --limit-rate=200k https://ks-xpc4.xpccdn.com/0580faef-a882-4482-8761-57f6ebd7746a.mp4
在这里插入图片描述

-c 断点续传,从上次下载的进度开始下载

wget -c --limit-rate=200k https://ks-xpc4.xpccdn.com/0580faef-a882-4482-8761-57f6ebd7746a.mp4
在这里插入图片描述

–b 在后台下载,通过tail查看log文件

wget -bc --limit-rate=200k https://ks-xpc4.xpccdn.com/0580faef-a882-4482-8761-57f6ebd7746a.mp4这里是引用

–mirror -p 下载python-requests中文文档资源

wget --mirror -U “Mozilla” -p https://requests.readthedocs.io/这里是引用

–convert-links 下载的资源绝对链接→相对链接,镜像下载整个网站并保存到本地

wget --mirror -U “Mozilla” -p --convert-links https://requests.readthedocs.io/这里是引用
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值