还在学习lxml.我发现有时候我无法使用item.text从树中获取项目的文本.如果我使用item.text_content()我很高兴.我不确定我明白为什么.任何提示将不胜感激
好吧,我不确定如何在不让你处理文件的情况下提供一个例子:
这里是我写的一些代码,试图弄清楚为什么我没有得到一些我期望的文本:
theTree=html.fromstring(open(notmatched[0]).read())
text=[]
text_content=[]
notText=[]
hasText=[]
for each in theTree.iter():
if each.text:
text.append(each.text)
hasText.append(each) # list of elements that has text each.text is true
text_content.append(each.text_content()) #the text for all elements
if each not in hasText:
notText.append(each)
所以在我运行之后,我看一下
>>> len(notText)
3612
>>> notText[40]
>>> notText[40].text_content()
'(I.R.S. Employer'
>>> notText[40].text