python+正则表达式获取ed2k url

python+正则表达式获取ed2k url

  283人阅读  评论(0)  收藏  举报
  分类:

近来找到了一套 MIT的 introduction to algorithms 课程,无奈网速太慢,在线根本看不了,于是乎决定搜搜国内有没有网站提供该套课程的下载,找了半天结果在 verycd.com中找到一套,可惜的是verycd.com不提供下载链接,所以只能想另外的方法看有没有网友提供它的下载链接,在网络搜索过程中发现

http://www.blogjava.net/lusm/archive/2007/07/26/132556.html

里面有提供下载,但是它的复制链接地址点不开,经过仔细观察,它的每一条下载链接都是一个ed2k url, 我思考了一把,如果一个一个链接处理很是恼人,于是决定写一个脚本来替我提取ed2k url, 代码如下:

[python]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. #!/usr/bin/python3.2  
  2.   
  3. import urllib.request  
  4. import re  
  5.   
  6. def get_all_picaddr(startaddr = ''):  
  7.     response = urllib.request.urlopen(startaddr)  
  8.     htmlbytes = response.read()  
  9.     htmlstr = htmlbytes.decode(encoding='utf-8')  
  10.     alladdrs=re.findall(r'ed2k://.*\|/\s',htmlstr);  
  11.     for addr in alladdrs:  
  12.         print(addr)  
  13.   
  14. if __name__ == "__main__":  
  15.     get_all_picaddr("http://www.blogjava.net/lusm/archive/2007/07/26/132556.html")  

在写这个代码的时候还要感谢这篇文章,一目了然地介绍了python中正则表达式的用法:

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

正是因为参考了这篇文章,我才能够顺利地写了一个粗略的ed2k URL 的正则表达式:

[python]  view plain copy 在CODE上查看代码片 派生到我的代码片
  1. 'ed2k://.*\|/\s'  
简单,粗略,但是实实在在能解决问题。
其实我对python不熟,只用过一两次,每次都是用它来处理一些简单的字符串分析问题,它用起来确实很方便,我相信同样的功能如果用C/C++来实现的话估计是以代码的N倍工作量吧^_^.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值