etree.tostring中文汉字显示乱码问题解决

最新推荐文章于 2023-06-08 23:13:52 发布

皇马杀疯了

最新推荐文章于 2023-06-08 23:13:52 发布

阅读量2.7k

点赞数 3

分类专栏：爬虫，java 文章标签： python

本文链接：https://blog.csdn.net/somiceast/article/details/112420166

版权

爬虫，java 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

用xpath做爬虫，初步etree.tostring整理网页框架，显示乱码，代码如下

# -*- coding:UTF-8 -*-

import requests
from lxml import etree

url ='http://www.j342c.net/base.php?wer'

raw_html = requests.get(url)
ahtml = etree.HTML(raw_html.content)
aresult = etree.tostring(ahtml)

网页由gb18030编码，用tostring输出汉字乱码
将最后一句改为

aresult = etree.tostring(ahtml,encoding='utf-8',pretty_print=True,method='html')

解决！
输出用如下代码打印log

html_text = raw_html.content.decode('gb18030','utf-8')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

皇马杀疯了

关注关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

使用lxml.etree解析中文网页时出现乱码问题的解决办法

胡LiuJia@BLOG

01-30

4339

吐槽不得不说网络这个东西害死人，一群只会复制粘贴的瓜皮儿。没一点有用的答案，还要写的像模像样装x 这个问题折腾了一个晚上，晚上找了各种方案，都是相互抄，然而都不能解决问题，找的过程中看到一个博主发出了这样的感慨，真的深表赞同啊，鱼目混杂的内容太多了。 lxml.etree.tostring 乱码的解决方案话不多说，直接show code，很简单的一个示例代码。这里的关键是to string时用utf-8编码，然后用utf-8解码。 #!env python3 from urllib.request

爬虫etree.tostring()的坑

最新发布

爬虫工程师

08-28

205

最近在爬虫的时间需要保存一些带有标签的前端信息,就使用了lxml的etree.tostring()方法,但是使用该方法的时候总是会出现一些其他没有选择的标签信息, 如图所示。我们将该标签信息进行前端展示效果如下,可以看到这里多了一些我们所不需要的标签。处理方法: 添加应该method参数,其值为html。我们使用etree.tostring()转换该标签。这样就可以得到我们所想要的效果啦。

参与评论您还未登录，请先登录后发表或查看评论

java 字符数组使用toString变为乱码的原因（其实不是乱码）

cz2423415723的博客

01-23

5304

java 字符数组使用toString变为乱码（其实是地址）我在网上搜了一下这个小白容易犯的问题并没有人解答过因为String字符串可以通过toCharArray（）得到字符数组，所以很多初学者就会想到对字符数组使用toString（）的方法得到字符串 String name="name"; char[] a=name.toCharArray(); String str=a.toString(); System.out.print(st...

爬取网页时调用tostring()中文乱码("&#数字;")解决方案

南淮北安的博客

01-16

5172

出现乱码的代码 import requests import re from lxml import etree with open('real_case.html', 'r', encoding='utf-8') as f: c = f.read() tree = etree.HTML(c) table_element = tree.xpath(&amp;amp;quot;//div[@class='tabl...

QString::toStdString() 中文乱码

u010295749的专栏

11-29

1408

QString::toStdString() 中文乱码

LXML使用etree.tostring输出中文的方法

大大打打的博客

01-06

1934

先编码，再解码：) # 准备使用xpath html = etree.HTML(content) rst = etree.tostring(html, encoding="utf-8", pretty_print=True, method="html").decode("utf-8") # 根据rst写出xpath print(rst) ...

解决打印etree.tostring()字符串时不显示中文字符的问题

冰冷的希望的博客

12-26

3489

我们在使用etree解析内容的时候，经常需要打印内容，但是直接使用 print(etree.tostring(str)) 打印出的中文字符不能正常显示，我们需要转变成utf-8，再进行解码就好了 print(etree.tostring(str, encoding="utf-8", pretty_print=True, method="html").decode("utf-8")) ...

【小白必胜-xpath】lxml.etree.HTML()，lxml.etree.fromstring()和lxml.etree.tostring()三者的区别与联系

沧海济洲云的博客

11-23

3699

对于使用xpath()之前的文档格式化问题，可能不同的人，会遇到不一样的情况，但是基本上只要搞懂了lxml.etree.HTML()，lxml.etree.fromstring()和lxml.etree.tostring()这三者之间的区别和联系，那么文档格式化这一步一定不会有问题……

etree xpath处理中文乱码问题解决

Memory_and_Dream的博客

08-31

2478

不知道为啥突然碰到一个页面etree xpath获取到的中文是乱码。最后靠加HTMLParser参数搞定。代码如下 @staticmethod def getXpath(xpath, content): hparser = etree.HTMLParser(encoding='utf-8') tree = etree.HTML(content,hparser) out = [] results = tree.xpath(x

爬虫开发02--数据解析--xpath（首选）

nikeylee的博客

10-27

1798

xpath

【lxml.etree的多语言支持】：国际化与本地化XML数据

[python库文件学习之lxml.etree](https://ucc.alicdn.com/pic/developer-ecology/7c1d8545b2b44152837c656141c43ea9.png) # 1. 多语言支持的XML数据基础随着全球化的推进，多语言支持成为了信息技术领域不可忽视的...

treetostring将树结构转换为人性化的字符串

08-12

tree-to-string：将树结构转换为人性化的字符串

简单一行代码解决流读取导致StringBuilder.toString()乱码问题

热门推荐

zhumj_zhumj的专栏

09-10

1万+

今天做上传功能代码读取返回值得时候，StringBuilder.toString()出现乱码的情况，在网上找了一堆乱七八糟的办法，繁琐不说，代码还好几行，后来看到String类构造自己就有办法解决这个问题，简单一行代码搞定，在这里记录一下： StringBuilder sb2 = new StringBuilder(); String succeedStr = new String(sb...

解决jstring to string 中文乱码问题

月下男孩的专栏

02-14

1603

inline char * jstringToString(JNIEnv * env, jstring jstr) { jsize len = env->GetStringLength(jstr); const jchar * jcstr = env->GetStringChars(jstr, NULL); int size = 0; char * st...

【三脚猫指路】requests+etree+中文出现乱码的解决方式

ToBeAMensch

05-08

739

今天记录个编码问题的解决方法（好像时不时这个编码问题就会跳出来烦一下）。 import requests from lxml import etree req = requests.get("https://www.cn.com/index.html") #某网页，有中文 if req.encoding == 'ISO-8859-1': encodings = requests.utils.get_encodings_from_content(req.text) #这方式其实还能往下琢磨

etree.html 中文乱码,[三脚猫指路]请求+etree+中文乱码解决方案,requestsetree,出现,的,方式...

weixin_39956353的博客

06-15

936

今天记录个编码问题的解决方法(好像时不时这个编码问题就会跳出来烦一下)。import requestsfrom lxml import etreereq = requests.get("https://www.cn.com/index.html") #某网页，有中文if req.encoding == 'ISO-8859-1':encodings = requests.utils.get_enc...

python etree.tostring解决xpath显示html标签无乱码

丿灬安之若死

09-03

1863

strs = (etree.tostring(content, encoding="utf-8", pretty_print=True, method="html")) 类型是bytes的如何转换成String呢 strs.decode()

用Date.ToString()输出中文月份

weixin_30906185的博客

02-09

287

DateTime.Now.ToString("dddd,dd MMMM,yyyy") //输出星期三,30 一月,2008 转载于:https://www.cnblogs.com/zhixiaoning/archive/2008/02/09/1066426.html

python库的etree函数转换源代码时只有一行代码

mumuemhaha的博客

06-08

201

-注意这里少了一个标签-->因为为utf-8格式所以在输入中文是打印出来的也不是中文，而是一个诸如。，但是etree基于c语言编写运行的速度一般来说比前者要快。原因也十分简单，因为etree函数需要传递的编码格式为'既然要utf-8，那我就把编码格式转成utf-8不就行了。所以我铁了心了要用它有什么办法吗？而python中变量的编码格式为。格式不同，传递的时候当然会出错。

python3.9版本以上的有etree.tostring吗

05-26

是的，Python 3.9版本以上的lxml库中仍然包含`etree.tostring`方法。该方法用于将一个Element对象转换为字符串形式，并且可以指定一系列的参数来更改输出格式。示例代码： ```python from lxml import etree root = etree.Element("root") child = etree.SubElement(root, "child") child.text = "Hello World" output = etree.tostring(root, pretty_print=True) print(output) ``` 输出结果： ``` b'<root>\n <child>Hello World</child>\n</root>\n' ``` 需要注意的是，如果你没有安装lxml库，则无法使用`etree.tostring`方法。