xml文件拆分 python_使用Python解析大型拆分XML文件

我有一个非常大的XML日志文件,它以固定大小(约200MB)自动拆分。可能有很多部分(通常少于10个)。当它拆分时,它不会在记录的末尾或者甚至在当前行的末尾进行拆分。它只要达到目标尺寸就会裂开。在

基本上,我需要为'record'元素解析这些文件,然后从每个元素中拉出time子元素

由于这些日志文件在一个随机位置拆分,并且不一定有根,所以我使用Python3和lxml的etree.iterparse和html=True。这是在处理由于拆分文件而缺少根节点的问题。但是,我不知道如何处理最终在一个文件的结尾和另一个文件的开头之间分割的记录。在

下面是一个分割文件的小示例。在

文件:test.001.txt

5

1

5

2

5

文件:test.002.txt

^{pr2}$

以下是我尝试过的方法,但我知道这些方法不正确:from lxml import etree

xmlFiles = []

xmlFiles.append('test.001.txt')

xmlFiles.append('test.002.txt')

timeStamps = []

for xmlF in xmlFiles:

for event, elem in etree.iterparse(xmlF, events=("end",), tag='record',html=True):

tElem = elem.find('time')

if tElem is not None:

timeStamps.append(int(tElem.text))

输出:In[20] : timeStamps

Out[20]: [1, 2, 4, 5]

那么,有没有一种简单的方法来捕获在文件之间分割的第三条记录?我真的不想提前合并这些文件,因为它们可能有很多,而且它们非常大。另外,除了这个Using Python Iterparse For Large XML Files之外,还有其他的速度/内存管理提示。。。下一步我会想办法的。附加时间戳似乎有问题,因为可能有很多时间戳。。。但我真的不能分配,因为我不知道有多少提前。在

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值