我有一些
,像这样:10876151 yangfanhit 3155 Accepted344K219MSC++3940B2012-10-02 16:42:4510876150 BandBandRock 2503 Accepted16348K2750MSG++840B2012-10-02 16:42:25我想获取不带html标记的内容,例如:
^{pr2}$
现在我用下面的代码来处理它:response = urllib2.urlopen('http://poj.org/status', timeout=10)
html = response.read()
response.close()
pattern = re.compile(r'
')match = pattern.findall(html)
pat = re.compile(r'
.*?')p = re.compile(r'')
for item in match:
for i in pat.findall(item):
print p.sub(r'', i)
print '================================================='
我不熟悉regex,也不熟悉python。那么你能给我一些更好的处理方法吗?在