import re
import urllib
page = urllib.urlopen("http://www.baidu.com")
html = page.read()
pattern = re.compile(r'<[^>]+>', re.S)
result = pattern.sub('', html)
print result
关键地带在"r'<[^>]+>'",这个是表示以'<'开始的,'[^>]'匹配除去'>'符号的所有其他符号,'+'表示出现次数为1次或者无限次。