python＋正则表达式获取ed2k url

最新推荐文章于 2021-06-04 23:17:17 发布

Hustudent20080101

最新推荐文章于 2021-06-04 23:17:17 发布

阅读量1k

点赞数

分类专栏： Python 正则表达式

Python 同时被 2 个专栏收录

99 篇文章 0 订阅

订阅专栏

正则表达式

26 篇文章 0 订阅

订阅专栏

python＋正则表达式获取ed2k url

2014-07-03 19:45 283人阅读评论(0) 收藏举报

 
  分类： 
 
  python 学习（1）

 版权声明：本文为博主原创文章，未经博主允许不得转载。

近来找到了一套 MIT的 introduction to algorithms 课程，无奈网速太慢，在线根本看不了，于是乎决定搜搜国内有没有网站提供该套课程的下载，找了半天结果在 verycd.com中找到一套，可惜的是verycd.com不提供下载链接，所以只能想另外的方法看有没有网友提供它的下载链接，在网络搜索过程中发现

http://www.blogjava.net/lusm/archive/2007/07/26/132556.html

里面有提供下载，但是它的复制链接地址点不开，经过仔细观察，它的每一条下载链接都是一个ed2k url, 我思考了一把，如果一个一个链接处理很是恼人，于是决定写一个脚本来替我提取ed2k url, 代码如下：

[python]view plaincopy 
    
 #!/usr/bin/python3.2  
   
 import urllib.request  
 import re  
   
 def get_all_picaddr(startaddr = ''):  
     response = urllib.request.urlopen(startaddr)  
     htmlbytes = response.read()  
     htmlstr = htmlbytes.decode(encoding='utf-8')  
     alladdrs=re.findall(r'ed2k://.*\|/\s',htmlstr);  
     for addr in alladdrs:  
         print(addr)  
   
 if __name__ == "__main__":  
     get_all_picaddr("http://www.blogjava.net/lusm/archive/2007/07/26/132556.html")  

在写这个代码的时候还要感谢这篇文章，一目了然地介绍了python中正则表达式的用法：

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

正是因为参考了这篇文章，我才能够顺利地写了一个粗略的ed2k URL 的正则表达式：

[python]view plaincopy 
    
 'ed2k://.*\|/\s'  

简单，粗略，但是实实在在能解决问题。
其实我对python不熟，只用过一两次，每次都是用它来处理一些简单的字符串分析问题，它用起来确实很方便，我相信同样的功能如果用C／C＋＋来实现的话估计是以代码的N倍工作量吧^_^.

Hustudent20080101

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录