DBLP是一个应用广泛的科研论文数据集,发布形式为xml格式。地址为http://dblp.org/xml/。
使用Python语言编程提取数据集中的如下信息:
Author,Title,Journal
即作者姓名,论文名,发表的期刊(会议)名
将上述信息存储在一个txt文本中。
python对XML的解析
常见的XML编程接口有DOM和SAX,这两种接口处理XML文件的方式不同,当然使用场合也不同。
python有三种方法解析XML,SAX,DOM,以及ElementTree:
1.SAX (simple API for XML )
python 标准库包含SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。
2.DOM(Document Object Model)
将XML数据在内存中解析成一个树,通过对树的操作来操作XML。
3.ElementTree(元素树)
ElementTree就像一个轻量级的D