你也可以通过我的独立博客 —— www.huliujia.com 获取本篇文章
吐槽
不得不说网络这个东西害死人,一群只会复制粘贴的瓜皮儿。 没一点有用的答案,还要写的像模像样装x
这个问题折腾了一个晚上,晚上找了各种方案,都是相互抄,然而都不能解决问题,找的过程中看到一个博主发出了这样的感慨,真的深表赞同啊,鱼目混杂的内容太多了。
lxml.etree.tostring 乱码的解决方案
话不多说,直接show code,很简单的一个示例代码。这里的关键是to string时用utf-8编码,然后用utf-8解码。
#!env python3
from urllib.request import urlopen
from lxml import etree
#读取baidu.com并解析
htmlFile = urlopen('http://www.baidu.com').read()
html = etree.HTML(htmlFile)
#获取title标签
htmlTitle = html.xpath<