python wget_python-如何获取wget下载的文件的文件名

最新推荐文章于 2022-11-07 10:55:27 发布

weixin_39600291

最新推荐文章于 2022-11-07 10:55:27 发布

阅读量646

点赞数

文章标签： python wget

我正在使用os.system(‘wget’链接)从网站检索文件.下载后,我想根据源链接进一步处理这些文件.

大多数链接都是这种形式

htttp：//example.com/…/filename.zip.

在这种情况下,只需将文件下载为filename.zip.我可以使用基本名称和RegExp [^ /] $从链接中提取该内容.

但是问题是形式的链接

http://http://www.ez-robot.com

http://www.worldscientific.com/

http://www.fairweld.com

这些链接下载为index.html,index.html.1,index.html.2等等.

在这里,我无法区分哪个索引文件属于哪个网站.我做到这一点的一种方法是查看将链接传递到wget的顺序.

我想要一些通用方法来获取“真实”文件名,通过该文件名可以在计算机中下载文件. wget完成执行后,会在终端上显示“保存到：”标签,后跟该“真实”文件名.我想将该文件名存储在字符串中.

是否有任何直接/简便的方法来获取文件名？我正在使用Python.

$wget http://www.fairweld.com

--2015-04-11 18:51:48-- http://www.fairweld.com/

Connecting to 202.142.81.24:3124... connected.

Proxy request sent, awaiting response... 200 OK

Length: 39979 (39K) [text/html]

Saving to: ‘index.html.4

weixin_39600291

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python wget_python-如何获取wget下载的文件的文件名

我正在使用os.system(‘wget’链接)从网站检索文件.下载后,我想根据源链接进一步处理这些文件.大多数链接都是这种形式htttp：//example.com/…/filename.zip.在这种情况下,只需将文件下载为filename.zip.我可以使用基本名称和RegExp [^ /] $从链接中提取该内容.但是问题是形式的链接http://http://www.ez-robot.co...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。