Python爬虫学习第二天(Wget的使用)

天行健,君子以自强不息(大家共勉,坚持学习)


wget与curl相比,它更专注于下载


wget使用参数表格

参数

说明

示例

-O

以指定文件名保存下载

wget -O test.png http://httpbin.org/image/png

--limit-rate

以指定的速度下载目标文件

--limit-rate=200k

-c

断点续传

wget -c --limit-rate=200k https://us-xpc5.xpccdn.com/0334e613-1b0b-496b-a949-39b1ecab89aa/3909e4d4-9e26-45ba-9075-ebc4fc76d1f3.mp4

-b

后台下载

wget -bc  https://requests.readthedocs.io/en/latest/

-U

设置User-Agent

wget -c --mirror -U "Mozilla" -p --convert-links https://requests.readthedocs.io/en/latest/

--mirror

镜像某个网站

wget --mirror -U "Mozilla" -p --convert-links https://requests.readthedocs.io/en/latest/

-p

下载页面中的所有相关资源

wget -c --mirror -U "Mozilla" -p --convert-links https://requests.readthedocs.io/en/latest/

-r

递归下载所有的链接


下面是Ubuntu18.04实际学习过程

wget -O test.png http://httpbin.org/image/png

wget --limit-rate=20k https://us-xpc5.xpccdn.com/0334e613-1b0b-496b-a949-39b1ecab89aa/3909e4d4-9e26-45ba-9075-ebc4fc76d1f3.mp4

以20K的速度下载指定文件

wget -c --limit-rate=200k https://us-xpc5.xpccdn.com/0334e613-1b0b-496b-a949-39b1ecab89aa/3909e4d4-9e26-45ba-9075-ebc4fc76d1f3.mp4

wget -bc https://us-xpc5.xpccdn.com/0334e613-1b0b-496b-a949-39b1ecab89aa/3909e4d4-9e26-45ba-9075-ebc4fc76d1f3.mp4

tail -f wget-log

这个指令可以查看下载情况,但我这边不知道因为是Ubuntu版本问题还是什么查看不了(如果有知道的大佬麻烦评论区告诉我一下,谢谢)

文件下载好后

使用vlc打开视频

如果没有先安装

sudo apt install vlc

但vlc不支持使用管理员权限打开文件,可以重新在当前文件夹打开一个新终端

vlc 3909e4d4-9e26-45ba-9075-ebc4fc76d1f3.mp4

wget --mirror -U "Mozilla" -p https://requests.readthedocs.io/en/latest/

网站文件下完显示

请注意由于在Ubuntu中,使用 open 命令通常是不会打开 HTML 文件的,因为 open 命令通常用于打开 URLs、应用程序或文件夹,而不是 HTML 文件。

所以这里使用Firefox打开页面文件,但firefox指令只能在非管理员权限情况下使用,请重新打开终端,用当前账号直接找到页面文件

ls

cd requests.readthedocs.io/
ls

cd en
ls

cd latest/
ls

cd _modules
ls

firefox index.html

镜像下载整个网站并保存到本地

wget -c --mirror -U "Mozilla" -p --convert-links https://requests.readthedocs.io/en/latest/
tree en

查看en目录下的文件,如果没有tree就安装

apt install tree


额外尝试:

大家也可以使用Ubuntu自带的python3启动服务

python3 -m http.server

访问127.0.0.1:8000即可查看我们刚才镜像的网站

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值