第 0009 题:一个HTML文件,找出里面的链接。
思路:对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的。但是我发现一个问题,如果直接提取a标签的href,就会包含javascript:xxx和#xxx之类的,所以要对这些进行特殊处理。
0009.提取网页中的超链接.py
#!/usr/bin/env python
#coding: utf-8
from bs4 import BeautifulSoup
import urllib
import urllib2
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
# 要分析的网页url
url = 'http://www.ruanyifeng.com/blog/2015/05/co.html'
def