编辑:很抱歉,信息不全。我开始问这个问题,后来在工作中被叫走了。这不是借口,但当我回来的时候,是时候回家了,所以,我只是有点点击提交。在
我已经尝试过更多的“手动”操作,但显然并不是所有的文档都完全相同。以下是我尝试的:def table_parser(page):
file = open(page)
table = []
num = 0
for line in file:
if 'Grade' in line:
num += 1
if num > 0:
num += 1
if 3 <= num < 21:
line = line.rstrip()
if line != '':
split_line = line.split(' ')
split_line = [x for x in split_line if x != '']
strip_line = split_line[:16]
table.append(strip_line)
WG = []
WL = []
WS = []
for l in table:
WG.append((l[1:6]))
WL.append(l[6:11])
WS.append(l[11:16])
file.close()
# Return 3 lists for the 3 charts I want
return WG, WL, WS
这就是我所使用的方法,它使我开始使用的65k文件中的大约一半是正确的。我把返回的列表传给csv编写器保存,直到我能把它们全部清理干净。我知道也许有更好的方法,但我在把我的脑袋绕到美人圈之前就想出了这个办法。我不想让代码这么做,只需要指出从哪里开始。我试图找到关于beauthoulsoup的文档,但是我不知道从哪里开始我需要什么。在