我有一个包含成千上万个XML文件(小型文件)的语料库,并且我尝试使用Python并提取其中一个XML标签所包含的文本,例如,body标签之间的所有内容,例如:
nested tags in this paragraph然后编写一个包含此字符串的文本文档,然后向下移动XML文件列表.
我正在使用effbot的ELementTree,但找不到正确的命令/语法来做到这一点.我找到了一个使用miniDOM的dom.getElementsByTagName的网站,但是我不确定ElementTree的对应方法是什么.任何想法将不胜感激.
解决方法:
一个更好的答案,显示了如何实际使用XML解析来做到这一点:
import xml.etree.ElementTree as ET
stringofxml = "
sample text here with nested tags in this paragraph "def extractTextFromElement(elementName, stringofxml):
tree = ET.fromstring(stringofxml)
for child in tree:
if child.tag == elementName:
return child.text.strip()
print extractTextFromElement('bold', stringofxml)
标签:xml,python