python批量下载文件只有1kb_(尚有报错、待完善)从一些网站(网易公开课、电影网站)上批量获得相关视频文件的下载地址,并保存在一个x.txt文件中...

这段代码是一个Python脚本,用于从网页中抓取链接并过滤出.mp4和.rmvb文件。它使用BeautifulSoup解析HTML,fnmatch库进行文件名匹配,并将找到的URL写入文件x.txt。示例网址包括.mp4和.rmvb资源。
摘要由CSDN通过智能技术生成

1.[代码][Python]代码

#-*- coding:utf-8 -*-

"""

Created on 2013-7-2

源代码0.0获取地址为:http://www.oschina.net/code/snippet_658568_22342

@author: zcfrank1st

修改时间为2013-7-3

版本信息:getdownloadurl_v0.2.py

修改项目为:

1.使用or fnmatch.fnmatch(content, "*.rmvb"),使代码可以下载rmvb文件

2.下载rmvb的测试网址为:http://www.bt5156.com/html/tv/oumeitv/20130401/41951.html

3.下载mp4的测试网址为:http://v.163.com/special/opencourse/buildingdynamicwebsites.html

4.将获得的url地址写入到x.txt文件中,但是还未实现多重写入,现在是覆盖写入

"""

import urllib

from bs4 import BeautifulSoup

import fnmatch

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

f=open("x.txt",'w')

if __name__ == '__main__':

url = sys.argv[1]

html = urllib.urlopen(url).read()

soup = BeautifulSoup(html)

for link in soup.find_all('a'):

content = link.get('href')

if type(content)==type(None):

pass

elif fnmatch.fnmatch(content, "*.mp4") or fnmatch.fnmatch(content, "*.rmvb"):

print content

f.write(str(content))

#f.write(repr(content))

#f.write(content.decode("gb2312"))

f.write("\n")

else:

pass

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值