selector_new = etree.HTML(html.text)
是将HTML转化为文本/html 格式
selector_new = etree.HTML(html.content)
是将HTML转化为二进制/html 格式
我在获取xpath的标签属性时,怎么编码和解码都错了,网页的编码和用requests.get()的网页编码不一致,运用时用html.encoding打印出来


之后就可以解码啦

或者直接用selector_new = etree.HTML(html.content)
是将HTML转化为二进制/html 格式
xpath直接获取属性值就好了!
HTML编码转换与XPath属性抓取
本文探讨了使用Python的etree库将HTML文本转换为不同格式的方法,包括文本/html和二进制/html格式。重点讲解了如何解决网页编码与requests.get()获取的编码不一致的问题,以及如何正确地通过XPath获取属性值。
1550

被折叠的 条评论
为什么被折叠?



