xml文件拆分 python_使用Python解析大型拆分XML文件

最新推荐文章于 2023-05-09 14:39:53 发布

weixin_39747075

最新推荐文章于 2023-05-09 14:39:53 发布

阅读量834

点赞数

文章标签： xml文件拆分 python

我有一个非常大的XML日志文件，它以固定大小（约200MB）自动拆分。可能有很多部分（通常少于10个）。当它拆分时，它不会在记录的末尾或者甚至在当前行的末尾进行拆分。它只要达到目标尺寸就会裂开。在

基本上，我需要为'record'元素解析这些文件，然后从每个元素中拉出time子元素

由于这些日志文件在一个随机位置拆分，并且不一定有根，所以我使用Python3和lxml的etree.iterparse和html=True。这是在处理由于拆分文件而缺少根节点的问题。但是，我不知道如何处理最终在一个文件的结尾和另一个文件的开头之间分割的记录。在

下面是一个分割文件的小示例。在

文件：test.001.txt

5

1

5

2

5

文件：test.002.txt

^{pr2}$

以下是我尝试过的方法，但我知道这些方法不正确：from lxml import etree

xmlFiles = []

xmlFiles.append('test.001.txt')

xmlFiles.append('test.002.txt')

timeStamps = []

for xmlF in xmlFiles:

for event, elem in etree.iterparse(xmlF, events=("end",), tag='record',html=True):

tElem = elem.find('time')

if tElem is not None:

timeStamps.append(int(tElem.text))

输出：In[20] : timeStamps

Out[20]: [1, 2, 4, 5]

那么，有没有一种简单的方法来捕获在文件之间分割的第三条记录？我真的不想提前合并这些文件，因为它们可能有很多，而且它们非常大。另外，除了这个Using Python Iterparse For Large XML Files之外，还有其他的速度/内存管理提示。。。下一步我会想办法的。附加时间戳似乎有问题，因为可能有很多时间戳。。。但我真的不能分配，因为我不知道有多少提前。在

weixin_39747075

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
xml文件拆分 python_使用Python解析大型拆分XML文件

我有一个非常大的XML日志文件，它以固定大小（约200MB）自动拆分。可能有很多部分（通常少于10个）。当它拆分时，它不会在记录的末尾或者甚至在当前行的末尾进行拆分。它只要达到目标尺寸就会裂开。在基本上，我需要为'record'元素解析这些文件，然后从每个元素中拉出time子元素由于这些日志文件在一个随机位置拆分，并且不一定有根，所以我使用Python3和lxml的etree.iterparse和...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。