我尝试运行以下代码从XML文件中提取所有文本:
请注意“单词_1_14”—其中文字.text被发现是非类型所以没有打印出来…我发现这是因为文本带有强标记,从而使其不可见。你知道如何找到带有强标记的单词并打印出来吗?在
这行有问题-似乎单词_1_14的单词是非类型对象…这使得无法打印出文本。在In the Python code:
for word in ocr_word:
In the XML file:
I
在我看来等着找无法处理用强标记突出显示的XML文本。在
Python代码:
^{pr2}$
这是xml:
/p>
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
xmlns="http://www.w3.org/1999/xhtml" xml:lang="en" lang="en">
STATION
LOCATION
ELEVATION
ABOVE
SEA
GROUND
LEVEL
L
A
T
I
T
U
I
I
Afifine
D