我胡汉三又回来了……主要是指之前已经写过一次,http://blog.csdn.net/sndyangd/article/details/7746956
这不?若干天后,我又在回顾这题,实在是后面的题目涉及到各种各样的模块,我一个都不认识,不会用啊!也就正则表达式用到过。
话说上次用urlopen,自己误认为是失败了,其实没有,只是比较慢而已。能用程序从网上读代码下来当然要比我之前手工好。
然后需要把前面的html代码部分和提示部分给剔掉,就用最简单易行的方法,find提示部分后面的-->符号的位置,就可得到子串了。
剩下的则交给正则表达式了。
import re
import urllib2
page = urllib2.urlopen("http://www.pythonchallenge.com/pc/def/ocr.html")
text = page.read()
find_begin = text.find('-->') + len('-->')
text = text[find_begin:]
result = re.findall(r'[a-z]', text)
print ''.join(result)
page.close()