使用lxml.etree解析中文网页时出现乱码问题的解决办法

最新推荐文章于 2023-07-08 11:46:54 发布

胡LiuJia

最新推荐文章于 2023-07-08 11:46:54 发布

阅读量4.1k

点赞数 14

分类专栏：学习笔记文章标签： lxml etree 爬虫

本文链接：https://blog.csdn.net/damontive/article/details/113422206

版权

你也可以通过我的独立博客 —— www.huliujia.com 获取本篇文章

吐槽

不得不说网络这个东西害死人，一群只会复制粘贴的瓜皮儿。没一点有用的答案，还要写的像模像样装x

这个问题折腾了一个晚上，晚上找了各种方案，都是相互抄，然而都不能解决问题，找的过程中看到一个博主发出了这样的感慨，真的深表赞同啊，鱼目混杂的内容太多了。

lxml.etree.tostring 乱码的解决方案

话不多说，直接show code，很简单的一个示例代码。这里的关键是to string时用utf-8编码，然后用utf-8解码。

#!env python3
from urllib.request import urlopen
from lxml import etree

#读取baidu.com并解析
htmlFile = urlopen('http://www.baidu.com').read()
html = etree.HTML(htmlFile)

#获取title标签
htmlTitle = html.xpath<

最低0.47元/天解锁文章

胡LiuJia

关注

14
点赞
踩
12

收藏

觉得还不错? 一键收藏
5
评论
使用lxml.etree解析中文网页时出现乱码问题的解决办法

吐槽不得不说网络这个东西害死人，一群只会复制粘贴的瓜皮儿。没一点有用的答案，还要写的像模像样装x这个问题折腾了一个晚上，晚上找了各种方案，都是相互抄，然而都不能解决问题，找的过程中看到一个博主发出了这样的感慨，真的深表赞同啊，鱼目混杂的内容太多了。lxml.etree.tostring 乱码的解决方案话不多说，直接show code，很简单的一个示例代码。这里的关键是to string时用utf-8编码，然后用utf-8解码。#!env python3from urllib.request
复制链接

扫一扫

专栏目录