我有用于解析
XML文件的
Python代码为
detailed here.我知道XML文件因在内存中操作时占用系统资源而臭名昭着.我的解决方案适用于较小的XML文件(比如200KB,我有一个340MB的文件).
我开始研究StAX(拉解析器)实现,但我的运行时间很紧,我正在寻找一种更简单的方法来完成这项任务.
我理解创建较小的文件块但是如何通过每次输出main / header标签来提取正确的元素?
例如,这是架构:
....
....
....
....
....
....
....
....
....
....
....
如何为每1000本书元素创建包含标题数据的新XML文件?有关代码和数据集的具体示例,请参阅我的其他question here.非常感谢.
我想要做的就是避免一次性内存加载数据集.我们可以流式解析XML文件吗?我在思考正确的方向吗?
p.s:我的情况与2009年的question asked相似.一旦找到解决问题的简单解决方案,我会在这里发布答案.感谢您的反馈.