我有一个带有表格的HTML文件(它是一个大的文件,所以只给出示例代码)。我想检索表中的值。我尝试了python的HTMLParser库。如何使用Python解析带有表格的HTML文件
我开始编码如下。然后我发现属性“class”与系统定义的关键字相同。所以它给了我错误。为表
STATION CODE | STATION NAME | SCHEDULED ARRIVAL | SCHEDULED DEPARTURE | ACTUAL/ EXPECTED ARRIVAL | ACTUAL/ EXPECTED DEPARTURE |
TVC | ORIGON | Starting Station | 05:00, 07 May 2011 | Starting Station | 05:00, 07 May 2011 |
TVP | NEY YORK | 05:04, 07 May 2011 | 05:05, 07 May 2011 | 05:04, 07 May 2011 | 05:05, 07 May 2011 |
UPDATE
class MyHTMLParser(HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'tr':
for class in attrs:
if class == 'Table_row'
p = MyHTMLParser()
p.feed(ht)
HTML代码
我怎么能得到标记之间的数据?
+0
我写了一个小而简单的HTML解析器表不需要任何外部模块:https://github.com/schmijos/html-table-parser-python3/blob/master/html_table_parser/parser.py –
2014-12-09 09:42:36