问题如下:
从对象数据库获取一些基本的HTML自动生成的文件作为转储。它是基于表的信息。文件的结构每一代都是一样的,内容一般是一致的。
我需要进一步处理这个文件,做一些注释,等等,所以我想编辑一点这个HTML文件,比如说添加额外的表格单元格,用可写的文本字段在文件中添加备注,也许还有一些最后的按钮来生成一些额外的输出。现在的问题是:
我选择编写Python脚本来处理文件中的这些更改。这是一个正确的选择,还是你可以提出更好的建议?在
我现在处理如下:
1)制作基本文件的工作副本
2)在Python中以I/O字符串形式打开workcopy:content = content_file.read()
3)彻底检查html.parser对象:
^{pr2}$
4)使用HTML解析器的重载基类方法,我在搜索标记的有趣部分:def handle_starttag(self, tag, attrs):
#print("Encountered a start tag:", tag)
if tag == "tr":
print("Table row start!")
offset = self.getpos()
tagText = self.get_starttag_text()
结果,我得到了不可变的输入子集,标记标签,现在我觉得我正走向死胡同。。。有什么关于我应该如何重新设计我的想法的吗?这个特殊的library中的任何一个都可能有用?在