抓出来的<Element xxx at xxxxxx>是什么?
①它其实是<class ‘lxml.etree._Element’>
②可以用tostring()方法获取它的源码
③可以用/@xxx获取它的属性
④可以用/text()获得标签的文本
举例说明:
import lxml
from lxml import etree
from lxml.etree import tostring
page = '''
此处省略
'''
html = etree.HTML(page)
element = html.xpath('/img')[0] #html.xpath('/img')得到的是列表,[0]取第一个元素
print("element:", element)
print("element的类型:", type(element))
print("element的源码:", tostring(element))
print("element的属性class和src:", element.xpath('./@class'), element.xpath('./@src'))
输出结果:
element: <Element img at 0x1f29d5b38c8>
element的类型: <class 'lxml.etree._Element'>
element的源码: b'<img class="lazyload" src="xxx.jpg"/>'
element的属性class和src:['lazyload'] ['xxx.jpg']