假设我们的
XML文件结构如下.
123
456
789
987
123
456
789
987
我需要解析:
>“子字段”的内容(例如,上例中的123)和
>属性值(例如000或001)
我想知道如何使用lxml和XPath.粘贴在下面是我的初始代码,我恳请有人解释我,如何解析价值.
import urllib, urllib2
from lxml import etree
url = "https://dl.dropbox.com/u/540963/short_test.xml"
fp = urllib2.urlopen(url)
doc = etree.parse(fp)
fp.close()
ns = {'xsi':'http://www.loc.gov/zing/srw/'}
for record in doc.xpath('//xsi:record', namespaces=ns):
print record.xpath("xsi:recordData/record/datafield[@tag='000']", namespaces=ns)