python3 网页解析工具2之Pyquery

做过前端开发的同志都应该知道或了解过 jQqueryjQuery 是一个用来处理 DOM 的 JavaScript 库 。pyquery 说白了就是 jQquery 的 Python 版本。不得不说 pyquery 在爬虫网页解析上的又一大神器。

pyquery 相当于 juquery 一样的 Python 库,它有类似于 jQuery 的 API 且可以通过 lxml 模块快速处理 XML 和 HTML 文档,具体可以查看 pyquery – PyQuery complete API

一.初始化为 PyQuery 对象

下面所有实例的开头声明都如下

from pyquery import PyQuery as pq
from lxml import etree
import urllib

这里有四种初始化方法
1.直接字符串

# pyquery 的四种初始化方式
# pq 参数可以直接传入 HTML 代码,doc 现在就相当于 jQuery 里面的 $ 符号。

doc=pq("<html></html>")

2.lxml.etree 方法处理

#先用 lxml 的 etree 处理一下代码,这样如果你的 HTML 代码出现一些不完整或者疏漏,都会自动转化为完整清晰结构的 HTML代码。
doc = pq(etree.fromstring("<html></html>"))

3.直接传 URL

# 这里就像直接请求了一个网页一样,类似用 urllib 来直接请求这个链接,得到 HTML 代码。
doc = pq('http://www.baidu.com',encoding='utf-8')

4.传文件路径

# 可以直接传某个路径的文件名。
doc = pq(filename='hello.html')
二. Css

1.添加、切换、移除 Css

# css
p = pq('<p id="hello" class="one"></p>')('p')
p.attr("class")
# 添加
p.addClass("toto")
print(p)
# 切换
p.toggleClass("titi toto")
print(p)
# 移除
p.removeClass("titi")
print(p)

输出如下

<p id="hello" class="one toto"/>
<p id="hello" class="one titi"/>
<p id="hello" class="one"/>

2.操作 Css 样式

#Or the css style:
p.css("font-size", "15px")
print(p)
p.attr("style")
p.css({"font-size": "17px"})
print(p)

输出如下

<p id="hello" class="one" style="font-size: 15px"/>
<p id="hello" class="one" style="font-size: 17px"/>

3.以更加 Pythonic 的方式完成同样的功能

#更加 pythonic 的方法 ,Css属性的获取与操作
p.css.font_size = "16px"
print(p.attr.style)
p.css['font-size'] = "15px"
print(p.attr.style)
p.css(font_size="17px")
print(p.attr.style)
p.css = {"font-size": "18px"}
print(p.attr.style)

输出如下

font-size: 16px
font-size: 15px
font-size: 17px
font-size: 18px
三.使用伪类

在 html 中,有 type 属性,支持语法 <input type="value"> 。这里的匹配的 Css 元素,就相对于 html 中的属性值。

如下是使用使用伪类匹配 Css 元素列表

名称含义
:button匹配所有按钮输入元素和按钮元素
:checkbox匹配所有复选框输入元素
:checked匹配选中的元素,下标从0开始
:child右边是左边的直接子元素
:contains()包含元素
:descendant右边是左边的子元素、孙元素或者更远的后继元素
:disabled匹配所有被禁用的元素
:empty匹配所有不包括任何其他元素的元素
:enabled匹配所有启用的元素
:eq()使用下标匹配
:even从下标0开始,匹配所有偶数元素
:file匹配所有文件类型的输入元素
:first匹配第一个被选择的元素
:gt()匹配下标大于指定值的元素
:has()匹配包含至少一个匹配元素的元素
:header匹配所有标题元素
:hidden匹配所有隐藏的输入元素
:image匹配所有图像输入元素
:input匹配所有输入元素
:last匹配最后一个选择的元素
:lt()匹配所有下标小于指定值的元素
:odd匹配奇元素,下标从0开始
:parent匹配所有包含其他元素的元素
:password匹配所有密码输入元素
:pseudo翻译一个伪元素(默认不支持伪元素,但可以被子类覆盖)
:radio匹配单选按钮输入元素
:reset匹配所有重置输入元素
:selected匹配所有被选中的元素
:submit匹配所有提交输入元素
:text匹配所有文本输入元素

下面是一些使用案例

html='''
<html>
<head>
<title>一个 HTML 页面</title>
</head>

<body>
<p>body 元素的内容会显示在浏览器中。</p>
<p>title 元素的内容会显示在浏览器的标题栏中。</p>
<p>有序列表:</p>
<ol>
  <li>play</li>
  <li>as</li>
  <li>a pythoner</li>
</ol>
<input type="reset"/>
<div><input type="file"/></div>
<select><option selected="selected"/></select>
<div><input type="button"/>按钮</div>
<div><input type =“checkbox”/>复选框</ div>
<div> <input checked =“checked”/>checked </ div>
<input type="button" value="点我" onclick="msg()">
<input type="hidden" name="country" value="Norway">
<br><input type="radio" name="gender" value="male"> Male</br>
<div><input type="password" name="pwd">密码框</div>
<p>say</p>
<ul>
  <li>do</li>
  <li>something</li>
  <li>easier</li>
</ul>
<div><input type="checkbox"/>单选框</div>
</body>
</html>

'''
pseudo_doc=pq(html)
print(pseudo_doc(':reset '))
print(pseudo_doc(':file '))
print(pseudo_doc(':selected '))
print(pseudo_doc(':checked '))
print(pseudo_doc(':button'))
print(pseudo_doc(':password'))
print(pseudo_doc(':hidden '))
print(pseudo_doc(':radio '))

输出如下

<input type="reset"/>

<input type="file"/>
<option selected="selected"/>
<input checked="&#x201C;checked&#x201D;/"/>checked  div&gt;

<input type="button"/>按钮<input type="button" value="&#x70B9;&#x6211;" onclick="msg()"/>

<input type="password" name="pwd"/>密码框
<input type="hidden" name="country" value="Norway"/>

<input type="radio" name="gender" value="male"/> Male
四.操作

1.向标签的尾部追加元素

下面是个实例

d = pq('<p class="hello" id="hello">you know Python rocks</p>')
d('p').append(' check out <a href="http://reddit.com/r/python"><span>reddit</span></a>')
print(d)

输出

<p class="hello" id="hello">you know Python rocks check out <a href="http://reddit.com/r/python"><span>reddit</span></a></p>

2.向标签的开头追加元素
下面是个实例

d = pq('<p class="hello" id="hello">you know Python rocks</p>')
p = d('p')
#print(p)
p.prepend('check out <a href="http://reddit.com/r/python">reddit</a>')
print(p.html())

输出

check out <a href="http://reddit.com/r/python">reddit</a>you know Python rocks

3.在其他元素之前或者之后追加元素
下面是个实例

d = pq('<p class="hello" id="hello">you know Python rocks</p>')
p = d('p')
d = pq('<html><body><div id="test"><a href="http://python.org">python</a> !</div></body></html>')
p.prependTo(d('#test'))
print(d('#test').html())

输出

<p class="hello" id="hello">you know Python rocks</p><a href="http://python.org">python</a> !

4.在其他元素之后插入元素
下面是个实例

from pyquery import PyQuery as pq
from lxml import etree
import urllib
html='''
<!DOCTYPE html>
<html>
<body>
<div id="test"><a href="http://python.org">python</a> !</div>
</body>
</html>
'''
d=pq(html)
p = pq('<p class="hello" id="hello">you know Python rocks</p>')
p.insertAfter(d('#test'))
print(d('body').html())

输出

<div id="test"><a href="http://python.org">python</a> !</div>
<p class="hello" id="hello">you know Python rocks</p>

5.在其他元素之前插入元素

下面是个实例

from pyquery import PyQuery as pq
from lxml import etree
import urllib
html='''
<!DOCTYPE html>
<html>
<body>
<div id="test"><a href="http://python.org">python</a> !</div>
</body>
</html>
'''
d=pq(html)
p = pq('<p class="hello" id="hello">you know Python rocks</p>')
p.insertBefore(d('#test'))
print(d('body').html())

输出

<p class="hello" id="hello">you know Python rocks</p><div id="test"><a href="http://python.org">python</a> !</div>

6.对每个元素执行操作

下面是个实例

p.each(lambda i, e: pq(e).addClass('hello2'))
print(p)

输出

<p class="hello hello2" id="hello">you know Python rocks</p>

7.移除一个元素

下面是个实例

d = pq('<html><body><p id="id">Yeah!</p><p>python rocks !</p></div></html>')
print(d.remove('p#id'))

输出

<html><body><p>python rocks !</p></body></html>

8.移除选中元素的内容

下面是个实例

d = pq('<html><body><p id="id">Yeah!</p><p>python rocks !</p></div></html>')
print(d('p').empty())

输出

<p id="id"/><p/>

9.获得修改后的html内容

下面是个实例

print(d)

输出

<html><body><p id="id"/><p/></body></html>

10.生成html片段

下面是个实例

from pyquery import PyQuery as pq
print(pq('<div>Yeah !</div>').addClass('myclass') + pq('<b>cool</b>'))

输出

<div class="myclass">Yeah !</div><b>cool</b>

11.移除所有命名空间

下面是个实例

from pyquery import PyQuery as pq
print(pq('<html><body><p id="id">Yeah!</p><p>python rocks !</p></div></html>'))
print(d.remove_namespaces())

输出

<html><body><p id="id">Yeah!</p><p>python rocks !</p></body></html>
<html><body><p id="id"/><p/></body></html>
五.遍历

1.使用字符串选择器过滤选择列表

下面是个实例

from pyquery import PyQuery as pq
from lxml import etree

d = pq('<p id="hello" class="hello"><a/></p><p id="test"><a/></p>')
#选择 id=hello 的信息
p=d('p').filter('.hello')
print(p)

输出

<p id="hello" class="hello"><a/></p>

2.使用eq选择器选中单个元素

下面是个实例

d = pq('<p id="hello" class="hello1"><a/></p><p id="test" class="test1"><a/></p>')
p=d('p').eq(0)
print(p)

输出

<p id="hello" class="hello1"><a/></p>

3.找出嵌套元素

下面是个实例

d = pq('''<html><body><p>这是 w3school 链接地址:<a href="http://www.w3school.com.cn">W3School</a></p></body></html>''')
print(d('p').find('a'))

输出

<a href="http://www.w3school.com.cn">W3School</a>

4.支持使用 end 从一级遍历中跳出

下面是个实例

d = pq('''<html><body><p>这是 w3school 链接地址:<a href="http://www.w3school.com.cn">W3School</a></p></body></html>''')
print(d('p').find('a').end())
print(d('p').eq(0).end())
print(d('p').filter(lambda i: i == 1).end())

输出

<p>这是 w3school 链接地址:<a href="http://www.w3school.com.cn">W3School</a></p>
<p>这是 w3school 链接地址:<a href="http://www.w3school.com.cn">W3School</a></p>
<p>这是 w3school 链接地址:<a href="http://www.w3school.com.cn">W3School</a></p>

5.注意标点的转义

下面是个实例

d = pq(
'''<html><body>
<p id="hello.you">text</p>
<p>这是 w3school 链接地址:<a href="http://www.w3school.com.cn">W3School</a></p></body></html>''')
print(d('#hello\.you'))

输出

<p id="hello.you">text</p>
六.Scraping

1.Pyquery 可以从一个 url 加载为 html 文档

下面是个实例

url="https://www.baidu.com/"
p=pq(url)
print(p)

输出限于篇幅,请自行查看

2.如果安装了 requests 就使用 requests。可以使用大部分requests 的参数。

下面是个实例

d=pq(url=url, headers={'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'})
print(d)

输出限于篇幅,请自行查看

else

pq (your_url , { 'q' : 'foo' }method = 'post' , verify = True )
[<html>]
七.小贴士 Tips

1.可以使链接转化为绝对链,在屏幕抓取时还会比较有用

>>> d = pq(url=your_url, parser='html')
>>> d('form').attr('action')
'/form-submit'
>>> d.make_links_absolute()
[<html>]

2.使用不同的解析器

默认的情况下,pyquery 使用 lxml 中的 lxml 解析器且如果它不能工作的话,可以尝试lxml.html 中的 html 解析器。xml 解析器在解析 xhtml 页面时可能出现一些问题,因为解析器不会抛出错误,而是给出一个无用的树。

可以显式地声明使用哪一个解析器:

>>> pq('<html><body><p>toto</p></body></html>', parser='xml')
[<html>]
>>> pq('<html><body><p>toto</p></body></html>', parser='html')
[<html>]
>>> pq('<html><body><p>toto</p></body></html>', parser='html_fragments')
[<p>]

其中,htmlhtml_fragments 解析器都在 lxml.html 当中

八.常用的 Css 选择器

这一 Part 是实战过程中使用最频繁的内容,浏览器自带 Css 选择器,可以直接通过右键 Copy 获取所需的 Css 样式。可以直接查看 CSS 选择器参考手册

在 CSS 中,选择器是一种模式,用于选择需要添加样式的元素。”CSS” 列指示该属性是在哪个 CSS 版本中定义的。(CSS1、CSS2 还是 CSS3。)

下面是 Css 选择器

选择器例子例子描述CSS
.class.intro选择 class="intro" 的所有元素。1
idfirstname选择 id="firstname" 的所有元素。1
**选择所有元素。2
elementp选择所有 <p> 元素。1
element,elementdiv,p选择所有 <div> 元素和所有 元素。1
element elementdiv p选择 <div> 元素内部的所有 <p> 元素。1
element>elementdiv>p选择父元素为 <div> 元素的所有 <p> 元素。2
element+elementdiv+p选择紧接在 <div> 元素之后的所有 <p> 元素。2
[attribute][target]选择带有 target 属性所有元素。2
[attribute=value][target=_blank]选择 target="_blank" 的所有元素。2
[attribute~=value][title~=flower]选择 title 属性包含单词 "flower" 的所有元素。2
[attribute=value][lang=en]选择 lang 属性值以 "en" 开头的所有元素。2
:linka:link选择所有未被访问的链接。1
:visiteda:visited选择所有已被访问的链接。1
:activea:active选择活动链接。1
:hovera:hover选择鼠标指针位于其上的链接。1
:focusinput:focus选择获得焦点的 input 元素。2
:first-letterp:first-letter选择每个 <p> 元素的首字母。1
:first-linep:first-line选择每个 <p> 元素的首行。1
:first-childp:first-child选择属于父元素的第一个子元素的每个 <p> 元素。2
:beforep:before在每个 <p> 元素的内容之前插入内容。2
:afterp:after在每个 <p> 元素的内容之后插入内容。2
:lang(language)p:lang(it)选择带有以 "it"开头的 lang 属性值的每个 <p> 元素。2
element1~element2p~ul选择前面有 <p>元素的每个 <ul> 元素。3
[attribute^=value]a[src^=”https”]选择其 src 属性值以 "https" 开头的每个 <a> 元素。3
[attribute$=value]a[src$=”.pdf”]选择其 src 属性以 ".pdf" 结尾的所有 <a> 元素。3
[attribute*=value]a[src*=”abc”]选择其 src 属性中包含 "abc" 子串的每个 <a> 元素。3
:first-of-typep:first-of-type选择属于其父元素的首个 <p> 元素的每个 <p> 元素。3
:last-of-typep:last-of-type选择属于其父元素的最后 <p> 元素的每个 <p> 元素。3
:only-of-typep:only-of-type选择属于其父元素唯一的 <p> 元素的每个 <p> 元素。3
:only-childp:only-child选择属于其父元素的唯一子元素的每个 <p> 元素。3
:nth-child(n)p:nth-child(2)选择属于其父元素的第二个子元素的每个 <p> 元素。3
:nth-last-child(n)p:nth-last-child(2)同上,从最后一个子元素开始计数。3
:nth-of-type(n)p:nth-of-type(2)选择属于其父元素第二个 <p> 元素的每个 <p> 元素。3
:nth-last-of-type(n)p:nth-last-of-type(2)同上,但是从最后一个子元素开始计数。3
:last-childp:last-child选择属于其父元素最后一个子元素每个 <p> 元素。3
:root:root选择文档的根元素。3
:emptyp:empty选择没有子元素的每个 <p> 元素(包括文本节点)。3
:targetnews:target选择当前活动的 #news 元素。3
:enabledinput:enabled选择每个启用的 <input> 元素。3
:disabledinput:disabled选择每个禁用的 <input> 元素3
:checkedinput:checked选择每个被选中的 <input> 元素。3
:not(selector):not(p)选择非 <p> 元素的每个元素。3
::selection::selection选择被用户选取的元素部分。3

引入一个用于测试的 doc

from pyquery import PyQuery as pq
from lxml import etree
doc = pq('https://www.python.org/',encoding='utf-8')
print(doc)

输出由于篇幅限制,可以自行运行查看

下面是一些实例

#打印 id为 downloads 的标签
print(doc('#downloads'))
print(type(doc('#downloads')))
#打印 class 为 python 的标签
print(doc(".python"))
#打印标签名为 body 的标签
print(doc('body'))
#多种css选择器使用
print(doc('html #downloads'))

输出由于篇幅限制,可以自行运行查看

更多有关选择器的知识可以查看:
CSS3 选择器——基本选择器CSS3 选择器——属性选择器CSS3 选择器——伪类选择器

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
作为一个网页制作高手、美工和程序员,我们都有过这样的经历:当看到一个漂亮的Flash的 时候或看到一个精巧的JavaScript功能的时候,使用IE的查看源代码的功能,仔细分析相关 的HTML代码,从临时目录中或网站上取得想要的SWF文件和JS文件。吸取别人优点的做法往 往能够事半功倍,互联网中这样的宝藏真是不计其数!WebPage Spy就是一个帮助我们挖掘这 些宝藏的工具,他能够将您想要从网页中得到的一切分门别类的呈现在您眼前! WebPage Spy有一个HTML代码分析器,它能够在网页在浏览器显示一个网页的时候自动从其中 分析出该网页所含的HTML文件、Flash文件、JavaScript代码、Style Sheet代码、图像文件、 Applet文件、链接等等。所有这些显示在树形列表中,点击鼠标就可以查看图像和浏览代码, 可以将自己喜欢的文件保存到自己指定的目录中。 WebPage Spy还提供了许多附件来增强IE的功能,这些功能添加在同内容相关的右键菜单中, 您可以根据自己的需要选用:您可以使用“搜索包含此内容的网站“和“在新闻组中搜索此内容” 功能在互联网上搜索在网页中选中的文字;您可以使用“查看所选部分的代码”来查看网页的 部分HTML代码,方便程序调试和代码分析;“放大“、“缩小”和“高亮度显示文字”功能方便您在 演示的时候更好的标示重点,等等。 WebPage Spy还将常用的IE配置功能通过菜单的方式提供,您只要点击一下就可以达到目的, 再也不用总是进入“工具/Internet选项”,在选项卡中来回翻找。提供的快捷功能有:删除临 时文件,删除cookies,清除历史纪录。提供的选项开关有:显示图片,禁止脚本调试,启用 自动完成功能,允许脚本运行,允许Java Applet运行,允许ActiveX和插件运行。 赶快拥有WebPage Spy,发掘网页中无尽的宝藏! 产品特性 * 在您浏览网页的同时自动运行; * 同IE完美集成,可以象收藏夹那样显示和关闭; * 支持含Frame和IFrame的网页; * 将Flash, 图像, JavaScript, Style Sheet, 链接分类显示在树中; * 能够生成网页的所含外部元素的报告,并估算整个网页完全下载所需的时间; * 双击鼠标查看JavaScript, Style Sheet和网页的源代码; * 保存任何喜欢的内容; * 提供很多增强IE功能的附件; * 自定义增加的附件的数量; * 提供改变IE设置的快捷操作; * 图像列表可以将页面背景图,表格背景图等都列举出来; * JavaScript和Style Sheet列表包含链接的外部文件,也包含网页中内含的代码。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值