1.[代码][Python]代码
#-*- coding:utf-8 -*-
"""
Created on 2013-7-2
源代码0.0获取地址为:http://www.oschina.net/code/snippet_658568_22342
@author: zcfrank1st
修改时间为2013-7-3
版本信息:getdownloadurl_v0.2.py
修改项目为:
1.使用or fnmatch.fnmatch(content, "*.rmvb"),使代码可以下载rmvb文件
2.下载rmvb的测试网址为:http://www.bt5156.com/html/tv/oumeitv/20130401/41951.html
3.下载mp4的测试网址为:http://v.163.com/special/opencourse/buildingdynamicwebsites.html
4.将获得的url地址写入到x.txt文件中,但是还未实现多重写入,现在是覆盖写入
"""
import urllib
from bs4 import BeautifulSoup
import fnmatch
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
f=open("x.txt",'w')
if __name__ == '__main__':
url = sys.argv[1]
html = urllib.urlopen(url).read()
soup = BeautifulSoup(html)
for link in soup.find_all('a'):
content = link.get('href')
if type(content)==type(None):
pass
elif fnmatch.fnmatch(content, "*.mp4") or fnmatch.fnmatch(content, "*.rmvb"):
print content
f.write(str(content))
#f.write(repr(content))
#f.write(content.decode("gb2312"))
f.write("\n")
else:
pass