python笔记--XML解析（xml转成txt或者pkl）

最新推荐文章于 2024-07-04 16:41:49 发布

Lollipop66

最新推荐文章于 2024-07-04 16:41:49 发布

阅读量1k

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Lollipop66/article/details/101356900

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、python对XML的解析主要有三种方式，分别如下：

1.SAX (simple API for XML )

Python 标准库包含 SAX 解析器，SAX 用事件驱动模型，通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。

2.DOM(Document Object Model)

将 XML 数据在内存中解析成一个树，通过对树的操作来操作XML。

3.ElementTree(元素树)

ElementTree就像一个轻量级的DOM，具有方便友好的API。代码可用性好，速度快，消耗内存少。

注：因DOM需要将XML数据映射到内存中的树，一是比较慢，二是比较耗内存，而SAX流式读取XML文件，比较快，占用内存少，但需要用户实现回调函数（handler）

4.本人经验：

1）将xml解析成一颗树

import xml.dom.minidom
dom = xml.dom.minidom.parse('xxx.xml')

2）得到树的各个节点

root = dom.documentElement

3）得到节点字段的信息

ab=root.getElementsByTagName('title')

4）得到字段响应的值

ab.firstChild

参考文献：https://www.runoob.com/python/python-xml.html

二、其他细节：

1.同时遍历二个对象zip()函数

想对二个对象同时遍历，比如list，可以通过zip对其进行连接（这里主要是想得到树中的二个字段的值，一个是key，一个是value，所以想让二者对应起来）

e.g：

for (ti,ab) in zip(all_title,all_abstract):

2. 判断某个对象是否有某个属性：

hasattr（对象，属性）属性是字符串

3.IOpub data rate exeed

问题：

我将得到的数据写入txt或者pkl的时候，由于数据量比较大（我使用的jupyter notebook），导致一直报错：

原因应该是jupyter限制了他的io速度，如果超过这个速度或者流量就会做限制（我这样理解，可能会有误差）

然后去查找这个问题的解决办法：

1）. 使用terminal找到jupyter_notebook_config.py文件

需要找到jupyter_notebook_config.py文件（我是直接切换到根目录，然后在从目录找.jupyter文件，然后就有目标文件）

2）.这里需要使用vim进行编辑jupyter_notebook_config.py

命令：vim jupyter_notebook_config.py

3）.然后就进行了编辑模式之类的，找到NotebookApp.iopub_data_rate_limit=1000000.0

使用vim查找，

在vim的命令模式：/需要查找的字符

这样光标会跳到目标位置，然后改变这个阈值，将1000000调大一些，这样就会好了

参考文献：

http://www.runoob.com/linux/linux-vim.html（vim使用方法）

https://www.runoob.com/python/python-xml.html（python解析xml）

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python笔记--XML解析（xml转成txt或者pkl）

一、python对XML的解析主要有三种方式，分别如下：1.SAX (simple API for XML )Python 标准库包含 SAX 解析器，SAX 用事件驱动模型，通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。2.DOM(Document Object Model)将 XML 数据在内存中解析成一个树，通过对树的操作来操作XML。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。