scrapy中的Unicode字符编码导致lxml解析出错问题

最新推荐文章于 2023-12-26 20:33:34 发布

copeming

最新推荐文章于 2023-12-26 20:33:34 发布

阅读量622

点赞数

本文链接：https://blog.csdn.net/copeming/article/details/80973432

版权

通过lxml库的etree.HTML来处理一段网页源代码，从而生成一个可以被xpath解析的对象，出现下面的情况

response = etree.HTML(response.text)
  File "lxml.etree.pyx", line 2953, in lxml.etree.HTML (src\lxml\lxml.etree.c:66734)
  File "parser.pxi", line 1780, in lxml.etree._parseMemoryDocument (src\lxml\lxml.etree.c:101591)
ValueError: Unicode strings with encoding declaration are not supported. Please use bytes input or XML fragments without declaration.

根据报错信息推测，可能是因为不支持编码声明的Unicode字符串。Google发现这个问题在2012年就已经有人提交给作者了，但是一直没有被修复。地址在->https://gist.github.com/karlcow/3258330

不过下面的人也给出了解决办法：

response = bytes(bytearray(response.text, encoding='utf-8'))
response = etree.HTML(response)

首先将源代码转化成比特数组，然后再将比特数组转化成一个比特对象。这样就可以绕过这个bug。就可以用xpath提取数据了

参考来源：https://www.cnblogs.com/xieqiankun/p/lxmloldbug.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

copeming

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy中的Unicode字符编码导致lxml解析出错问题

通过lxml库的etree.HTML来处理一段网页源代码，从而生成一个可以被xpath解析的对象
复制链接

扫一扫

爬虫之lxml报错：ValueError: Unicode strings with encoding declaration are not supported. Please use bytes

zhaojiafu的博客

01-08

6419

文章目录说明：问题以及解决过程。最终的解决方法：说明：先说明一下，不要问我网站，因为工作原因，网站不会给你，还望谅解。如果你使用lxml提取数据是报的错误和标题差不多，可以来参考参考我的解决方法，因为我也是第一次遇见这种问题，所以记录下来。问题以及解决过程。今天测试一个网站，然后遇见一个问题，使用reqest请求，直接使用resp.text，返回的数据是没有问题的。测试代码如下： resp...

html处理utf8字符串,用lxml-HTML解析UTF-8/unicode字符串

weixin_39837352的博客

06-16

320

我一直试图用etree.HTML()解析编码为UTF-8的文本，但没有成功。→ pythonPython 2.7.1 (r271:86832, Jun 16 2011, 16:59:05)[GCC 4.2.1 (Based on Apple Inc. build 5658) (LLVM build 2335.15.00)] on darwinType "help", "copyright", "c...

参与评论您还未登录，请先登录后发表或查看评论

python之lxml快速上手_Element（二）

like_LeafFlying的博客

04-18

2493

使用XPath查找文本（Using XPath to find text）另一个在树状结构文档中抽取文本的方式是：XPath，它同样允许你抽取单独的文本块并放到list中。>>> print(html.xpath("string()")) # lxml.etree only! TEXTTAIL >>> print(html.xpath("//text()")) # lxml.etree only!

ValueError: Unicode strings with encoding declaration are not supported.

dsl200970的博客

06-26

4864

在写爬虫爬取网页时遇到题目中的问题，完整错误如下： def getXpath(req, xpath): sourcehtml = etree.HTML(req.text) print(sourcehtml) nodes = sourcehtml.xpath(xpath) return nodes ValueError:Unicodestringswithencodingdeclarationarenotsupported.Pleaseusebyt...

ValueError:Unicode strings with encoding declaration are not supported.

mingyang_wang的博客

09-30

7027

训练神经网络时，需要将标注好的数据转换成tensorflow特定数据，tfrecord。但是在转换时，发生以下错误：ValueError:Unicode strings with encoding declaration are not supported.Please use bytes or XML fragments without declaration. 错误显示不支持的解码格式，...

Python2.7.13和Scrapy 1.3.3依赖的全部

11-14

1. **高效的爬取**：Scrapy使用异步I/O模型，允许在单个线程中并发处理多个请求，大大提高了爬取速度。 2. **结构化的数据提取**：Scrapy使用XPath或CSS选择器来抽取网页数据，提供了直观且强大的方式来解析HTML和...

Python文本解析研究和比较.zip

10-16

Python3支持Unicode，能够处理多种字符编码，但处理不同来源的文本时，正确识别和转换编码是必不可少的步骤。文本解析不仅限于以上提到的库和方法，还有如Pandas库的read_csv和read_html函数，用于导入和解析CSV和...

Beautiful Soup 4使用方法.zip

07-22

使用`.prettify()`方法可以格式化输出，使其更易读，而`.decode()`则用于将Unicode编码转换为特定的字符集。在处理网页抓取时，常见问题包括处理JavaScript生成的内容、处理跨域请求、处理cookies以及处理重定向等...

基于python爬虫脚本的medium文章爬取.zip

最新发布

04-16

5. **网络数据的编码与解码**：理解Unicode和UTF-8等编码格式，解决网页编码问题，确保正确解析非ASCII字符。 6. **异常处理与反爬机制**：学习如何处理网络连接错误、请求超时等问题，并了解网站常见的反爬策略，...

常用Python爬虫库汇总.docx

03-28

chardet用于检测字符编码，而xpinyin和pangu.py分别处理汉字转拼音和中英文间距问题。特定格式文件处理库如tablib支持多种格式的数据导入导出，如XLS、CSV、JSON等。python-docx可以读写Microsoft Word的docx文件...

Unicode strings with encoding declaration are not supported. Please use bytes input or XML fragments

yanghaochide的博客

05-31

416

训练

第十九篇，爬取bilibili弹幕使用lxml解析遇到ValueError: Unicode strings with encoding declaration are not supported

weixin_43779803的博客

11-17

714

这篇博客是我看了别人的一篇博客有感而发写的：python爬虫：bilibili弹幕爬取+词云生成想着既然他用beautifulsoup解析的那我lmxl肯定不能落后。这里是我爬取bilibili视频弹幕遇到的一个问题如下： html = etree.HTML(text) File "src\lxml\etree.pyx", line 3170, in lxml.etree.HTML ...

lxml python如何读取xml到本地_简单粗暴的使用lxml从网页HTML/XML中提取数据

weixin_39721009的博客

01-27

688

Python 的 lxml 模块是一个非常好用且性能高的HTML、XML解析工具，通过它解析网页，爬虫就可以轻松的从网页中提取想要的数据。lxml是基于C语言的libxml2和libxslt库开发的，所以速度是相当的快。使用lxml提取网页数据的流程要从网页里面提取数据，使用lxml需要两步：第一步，用lxml把网页(或xml)解析成一个DOM树。这个过程，我们可以选择etree、etree.HT...

pipreqs 报错 encoding declaration in Unicode string

qq_35640866的博客

12-26

490

【代码】pipreqs 报错 encoding declaration in Unicode string。

使用lxml时，报错ValueError:can only parse strings

热门推荐

樱木花道不是差生

08-02

1万+

今天用lxml模块,使用xpath时，出现了以下错误：刚开始一脸懵逼，不知道咋办，仔细一想错误提示： ValueError:can only parse strings 不能解析字符串，终于知道了，原来我前面请求得到的req里面不仅仅是字符串，还有许多html标签。我将这一位置代码的req 替换为 req.text ,只取文本内容就成功解析。 ...

关于Unicode strings with encoding declaration are not supported. Please use bytes input or XML fragmen

带鱼工作室的博客

05-19

7761

错误原因:将res.text变为res.content即可。然后运行就好了(本文个人编写如有雷同纯属巧合)...

使用lxml的etree读取xml时的问题：ValueError: Unicode strings with encoding declaration are not supported.

suiyuan2009的专栏

01-28

3702

ValueError: Unicode strings with encoding declaration are not supported. Please use bytes input or XML fragments without declaration. 原xml文件内容： <?xml version="1.0" encoding="UTF-8"?> <dataset...

花了两天解决问题，lxml的xpath解析中存在的问题，你必须知道！！

knighthood2001

09-09

928

最近在写问卷星自动化刷份数的代码，查看其详细数据，发现可以查看其来源IP，短时间内频繁用用同一IP刷问卷后，会跳出滑动验证码，无论是否通过该验证码，都不会增加份数。因此是否可以爬取几个免费代理IP，通过它们去刷问卷。说干就干！！目录一、大致思路二、建立IP代理池 1、爬取代理IP Ⅰ url规律寻找 Ⅱ lxml的xpath解析 Ⅲ 代码展示 2、验证代理IP Ⅰ 思路 Ⅱ 代码展示 3、使用代理IP Ⅰ 简介 Ⅱ 代码展示三、总结注意：本篇...

python爬虫基础包含scrapy框架笔记

09-06

从0到1，全网最详细，学会了会忘，结合笔记看，忘了还能回来复习，当个文档查查。

“相关推荐”对你有帮助么？

非常没帮助
没帮助
一般
有帮助
非常有帮助

提交