我有一个非常大的XML日志文件,它以固定大小(约200MB)自动拆分。可能有很多部分(通常少于10个)。当它拆分时,它不会在记录的末尾或者甚至在当前行的末尾进行拆分。它只要达到目标尺寸就会裂开。在
基本上,我需要为'record'元素解析这些文件,然后从每个元素中拉出time子元素
由于这些日志文件在一个随机位置拆分,并且不一定有根,所以我使用Python3和lxml的etree.iterparse和html=True。这是在处理由于拆分文件而缺少根节点的问题。但是,我不知道如何处理最终在一个文件的结尾和另一个文件的开头之间分割的记录。在
下面是一个分割文件的小示例。在
文件:test.001.txt
5
1
5
2
5
文件:test.002.txt
^{pr2}$
以下是我尝试过的方法,但我知道这些方法不正确:from lxml import etree
xmlFiles = []
xmlFiles.append('test.001.txt')
xmlFiles.append('test.002.txt')
timeStamps = []
for xmlF in xmlFiles:
for event, elem in etree.iterparse(xmlF, events=("end",), tag='record',html=True):
tElem = elem.find('time')
if tElem is not None:
timeStamps.append(int(tElem.text))
输出:In[20] : timeStamps
Out[20]: [1, 2, 4, 5]
那么,有没有一种简单的方法来捕获在文件之间分割的第三条记录?我真的不想提前合并这些文件,因为它们可能有很多,而且它们非常大。另外,除了这个Using Python Iterparse For Large XML Files之外,还有其他的速度/内存管理提示。。。下一步我会想办法的。附加时间戳似乎有问题,因为可能有很多时间戳。。。但我真的不能分配,因为我不知道有多少提前。在