pyquery无法正确解析xhtml类型网页

最新推荐文章于 2022-12-29 00:01:49 发布

景韦

最新推荐文章于 2022-12-29 00:01:49 发布

阅读量927

点赞数 5

分类专栏： python

本文链接：https://blog.csdn.net/jewely/article/details/83281228

版权

python 专栏收录该内容

55 篇文章 2 订阅

订阅专栏

最近发现使用pyquery解析网页的时候，碰到了无法使用标签获取节点的情况，但使用class却能正常获取节点。

>>> html='''
<html xmlns="http://www.w3.org/1999/xhtml">
<ul class='xx'>
	<li>a</li>
	<li>b</li>
	<li>c</li>
</ul>
</html>
'''
>>> doc=pq(html)
>>> doc('.xx li')
[]
>>> doc('li')
[]

原因就是因为html里xmlns="http://www.w3.org/1999/xhtml"这句引起的，声明该网页是xhtml类型，而pyquery默认解析器是xml类型，在pyquery文档里提到了使用xml解析xhtml时会产生问题，可参考pyquery官方说明。
解决方法也很简单，在初始化的时候加上parser="html"告诉pyquery使用html规范解析即可：

>>> doc=pq(html,parser="html")
>>> doc('li')
[<li>, <li>, <li>]
>>> doc('.xx li')
[<li>, <li>, <li>]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

景韦

关注关注

5
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

选择正确DOCTYPE解决CSS在网页失效问题

09-27

当你发现自己的CSS样式无法正常应用到网页上时，DOCTYPE的选择可能是导致问题的关键所在。本文将深入探讨DOCTYPE的作用，以及如何选择正确的DOCTYPE来解决CSS失效的问题。首先，DOCTYPE是一个指令，它告诉浏览器...

解析xHTML源码的DLL组件AngleSharp介绍

10-20

AngleSharp是一款专为.NET开发者设计的DLL组件，用于解析xHTML源码。它是一个强大的库，允许程序员以灵活的方式处理HTML、CSS以及其他Web标准。AngleSharp的核心特性在于它提供了对HTML5规范的全面支持，包括错误...

1 条评论您还未登录，请先登录后发表或查看评论

用PyQuery实现网页解析

長澤まさみの博客

04-15

591

初始化初始化的时候一般有三种传入方式：传入字符串，传入url,传入文件 from pyquery import PyQuery as pq content = requests.get('https://book.douban.com/').text doc = pq(content) #传入字符串 doc = pq('https://book.douban.com/') #传入url 观察...

Python使用PyQuery解析网页元素

ramblerviper的博客

08-15

200

PyQuery解析网页用法入门讲解（含Python代码举例讲解+爬虫实战）

公众号：Python研究者

10-14

741

大家好，我是辰哥~本文带大家学习Pyquery解析网页，并通过python代码举例讲解常用的Pyquery最后实战爬取小说网页：重点在于爬取的网页通过Pyquery进行解析。1. Pyqu...

Python——pyquery解析html

cod16xx的博客

07-26

2211

一篇写的很好的pyquery文章 pyquery官方文档quick start:from pyquery import PyQuery as pq from lxml import etree import urllib d = pq("<html></html>") d = pq(etree.fromstring("<html></html>")) d = pq(url=your_url) d

网页数据解析与爬取----pyquery

weixin_45960356的博客

08-22

433

网页数据解析与爬取----pyquery

XHTML+CSS标准化网页开发.rar_XHTML+CSS标准化网页开发_网页界面开发

09-15

XHTML的规范要求元素必须正确关闭，属性值必须用引号包围，这使得文档结构更加清晰，有利于机器解析和搜索引擎优化。在网页开发中，XHTML用于定义页面的结构和内容，如段落、标题、链接等。 CSS则用于控制网页的...

xhtml标准网页模板下载

12-01

XHTML则更加强调语法的正确性和一致性，所有标签必须正确闭合，有助于提高网页在不同浏览器和设备上的兼容性。例如，一个简单的XHTML段落标签 `<p>` 需要在结尾处闭合为 `</p>`。 CSS是网页设计的关键，它分离了...

XHtml.rar_html解析_wince_wince html_wince ie_xhtml

09-23

标题中的“XHtml.rar”是一个压缩包，其中包含了用于在WinCE设备上解析HTML和XHTML的源代码示例。这个项目可能是一个自定义的轻量级浏览器或者Web视图组件，其核心是使用“CIEView”类来处理HTML内容。 “CIEView”...

python pyquery 解析html数据（2）

夏已微凉、

05-10

562

python pyquery 解析html数据（2） 1、PHP实现：php解析html类库simple_html_dom（2） 2、python 执行效果 3、python代码 from pyquery import PyQuery as pq #自定义一段HTML def ...

一步一步学爬虫（3）网页解析之pyquery的使用

最新发布

alijunshan的博客

12-29

685

又得到一个很重要的方法，自学一下。

Python爬虫之pyquery获取不到元素

qq_40176258的博客

12-16

2404

今天在做爬虫项目的时候出现了一个错误，通过pyquery获取不到元素。 from pyquery import PyQuery as pq html = ''' <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>TEST</title> </head> &..

python3.x导入pyquery报错问题

Z_Vixerunt的博客

10-01

2730

本人Python萌新，属于什么都不懂的那种。今天使用pip install pyquery安装完pyquery三方库之后发现无论是用命令行还是用pycharm运行from pyquery import PyQuery / import pyquery都会报错，如下： ImportError: DLL load failed: 找不到指定的程序。上网查了捣鼓了俩小时，但是很多大佬们的答

pyquery库导入出现ImportError: DLL load failed: 找不到指定的程序。

qq_42946328的博客

04-23

217

此处参考python3.x导入pyquery报错问题这篇文章将之前的lxml卸载，我这里最简单粗暴地进入Anaconda3\Lib\site-packages中把lxml相关的所有文件夹删除进入http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml，根据自己的配置下载对应版本的lxml。然后pip安装上面下载的lxml，pip install XXX.whl 再重新运行程序，没问题了 ...

关于使用PyQuery爬取数据遇到xmlns属性时的解决方法

z18222043061的博客

03-04

864

出现问题当我爬取数据时，CSS选择器里的a标签不能使用调试这时我发现a标签中有xmlns属性百度一下发现pyquery默认解析后的文档是xmlns格式，而这种格式就是造成无法获取原生标签的原因问题解决设置解析格式为HTML即可 doc=PyQuery(html,parser="html") parser属性的作用是设置解析格式 ...

pyquery如何解析xml

wujunlei1595848的博客

06-04

796

之前遇到pyquery解析svg文件(xml格式)的时候发现无法获取节点，比如下面这个svg文件： <?xml version="1.0" encoding="UTF-8" standalone="no"?> <!DOCTYPE svg PUBLIC "-//W3C//DTD SVG 1.1//EN" "http://www.w3.org/Graphics/SVG/1.1/D...

python：使用pyquery分析html

努力搬砖，努力生活

05-19

1337

Pyquery提供了一种类似jQuery的html分析功能，本文简要介绍使用Pyquery

pyquery根据标签查询元素失败

张欣的博客

09-23

1493

最近在做淘宝美食信息爬取练习的时候，发现用pyquery根据标签不能获取元素。后来发现主要是因为标签里面包含了 xmlns="http://www.w3.org/1999/xhtml"属性，去掉这个属性，或者用标签的其他属性就可以获取到元素信息. 在这里举一个

纠正误解：XHTML+CSS网页布局解析

`xHTML`规定了更严格的语法，使得文档结构更加规范，有利于机器解析和搜索引擎优化。 2. **为何从Table转向DIV?** 在早期网页设计中，`Table`常用于布局，但这种方法导致了代码冗余、页面加载速度慢和可维护性差等...