我只是把目录的网页保存成html,分别命名为1-6,然后写的这个小脚本的...
其实保存网页是可以用脚本实现的,因为就几页就懒得弄了..
话不多说贴代码:
#!/usr/bin/python
# ge the date from file and regex
import re
def readContest(filename):
f = open(filename, 'rU') # rU 或 Ua 以读方式打开, 同时提供通用换行符支持
content = f.read()
f.close()
return content
if __name__ == '__main__':
ex = '[0-9]\">\n[^<].+\n'
cnt = 0
for i in range(1, 7):
content = readContest(str(i) + '.html')
reslist = re.findall(ex, content)
for i in reslist:
cnt += 1
print cnt, re.sub(r'[0-9]\">\n[ ]+', '', i),