from lxml import etree
#定义一个字符串 HTML
text = “”"
print(text)
#初始化一个xpath一个解析对象,返回的是lxml文件对象
#这个文件对象可以使用xpath,其他都不可以。
html_xml=etree.HTML(text)
print(html_xml)
print(type(html_xml))
#返回一个bytes类型的HTML文件。
html_bytes=etree.tostring(html_xml,encoding="utf-8")
print(html_bytes)
print(type(html_bytes))
#将bytes类型转换成字符串,字符串可以用正则表达式
#转换的过程当中会将残缺的标签自动补齐
html_str=html_bytes.decode("utf-8")
print(html_str)
print(type(html_str))