将metalink中的网页链接用python 提取

想下TED,下载的到metalink格式的文件,现在都没有工具支持下载,自己动手用python提取吧

(1)问题

原始文件有几千个类似的结构: 要把从Https 到MP4的字符串找出来,变成一个list 文件,

 <files>
        <file name="Bren Brown - The power of vulnerability.mp4">
            <resources>
                <url type="http">https://download.ted.com/talks/BreneBrown_2010X-low-en.mp4</url>
            </resources>
        </file>
        <file name="Isabel Behncke - Evolutions gift of play from bonobo apes to humans.mp4">
            <resources>
                <url type="http">https://download.ted.com/talks/IsabelBehnckeIzquierdo_2011U-low-en.mp4</url>
            </resources>

        </file>


(2)网上找的原始解决方案

https://zhidao.baidu.com/question/560038575.html

results=re.findall("(?isu)(http\://[a-zA-Z0-9\.\?/&\=\:]+)")
open("urls.txt","wb").write("\r\n".joint(results))
 
(3)调试后的结果:
import re
s=open("TEDEN.TXT","rb").read()
#results=re.findall("(?isu)(https\\://[a-zA-Z0-9\.\?/&\=\:]+)",s)
results=re.findall("(?isu)(https\\://[a-zA-Z0-9 _\-\.\?/&\=\:]+)",s)
with open("OUTPUT.txt","wb") as handle:

     handle.write("\r\n".join(results))

(4)输出的文件内容:

https://download.ted.com/talks/BreneBrown_2010X-low-en.mp4
https://download.ted.com/talks/IsabelBehnckeIzquierdo_2011U-low-en.mp4

。。。。。。。

调试成功

(5)回顾

学到了re的符号含义,如何用正则式匹配你要的格式。

.join 和 .joint 的用法



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值