pyquery库的使用

最新推荐文章于 2024-04-26 17:42:56 发布

Alphapeople

最新推荐文章于 2024-04-26 17:42:56 发布

阅读量2.4k

点赞数 2

分类专栏：爬虫文章标签： pyquery

本文链接：https://blog.csdn.net/weixin_38241876/article/details/86552771

版权

爬虫专栏收录该内容

34 篇文章 4 订阅

订阅专栏

pyquery的强大之处就在于它有强大的CSS选择器，要初始化一个pyquery对象，首先需要传入一个HTML文本，它的初始化方式有多种，比如传入字符串、URL、文件名等。

字符串初始化：

我们先来看一个例子：

from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div class="global-nav-items">
  <ul>
    <li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
    <li class="">
      <a href="https://movie.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-movie&quot;,&quot;uid&quot;:&quot;0&quot;}">电影</a>
    </li>
    <li class="">
      <a href="https://music.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-music&quot;,&quot;uid&quot;:&quot;0&quot;}">音乐</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/location" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-location&quot;,&quot;uid&quot;:&quot;0&quot;}">同城</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/group" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-group&quot;,&quot;uid&quot;:&quot;0&quot;}">小组</a>
    </li>
    <li class="">
      <a href="https://read.douban.com&#47;?dcs=top-nav&amp;dcm=douban" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-read&quot;,&quot;uid&quot;:&quot;0&quot;}">阅读</a>
    </li>
    <li class="">
      <a href="https://douban.fm&#47;?from_=shire_top_nav" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-fm&quot;,&quot;uid&quot;:&quot;0&quot;}">FM</a>
    </li>
  </ul>
</div>
'''
doc = pq(html)
print(doc('li'))#将初始化好的对象传入CSS选择器获取li标签

<li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
    <li class="">
      <a href="https://movie.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-movie&quot;,&quot;uid&quot;:&quot;0&quot;}">电影</a>
    </li>
    <li class="">
      <a href="https://music.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-music&quot;,&quot;uid&quot;:&quot;0&quot;}">音乐</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/location" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-location&quot;,&quot;uid&quot;:&quot;0&quot;}">同城</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/group" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-group&quot;,&quot;uid&quot;:&quot;0&quot;}">小组</a>
    </li>
    <li class="">
      <a href="https://read.douban.com&#47;?dcs=top-nav&amp;dcm=douban" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-read&quot;,&quot;uid&quot;:&quot;0&quot;}">阅读</a>
    </li>
    <li class="">
      <a href="https://douban.fm&#47;?from_=shire_top_nav" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-fm&quot;,&quot;uid&quot;:&quot;0&quot;}">FM</a>
    </li>

URL初始化：

当初始化的参数为URL时，需要指定参数为url：

from pyquery import PyQuery as pq
doc = pq(url='https://movie.douban.com/cinema/nowplaying/chengdu/')
print(doc('title'))

<title>
    成都 - 在线购票&amp;影讯
</title>

PyQuery对象会首先请求这个url，然后用得到的html内容完成初始化，这相当于用网页的源代码以字符串的形式传递给PyQuery类来初始化，下面的写法也是相同的：

from pyquery import PyQuery as pq
import requests
doc = pq(requests.get('https://movie.douban.com/cinema/nowplaying/chengdu/').text)
print(doc('title'))

除了传递url以外，还可以传递本地的文件名，只需要将参数指定为filename即可：

from pyquery import PyQuery as pq
doc = pq(filename='rr.html')
print(doc('img'))

当然文件必须时html文件，这样的话会先读取本地的文件内容，然后将文件内容以字符串的形式传递给PyQuery类来初始化。

CSS选择器

先来看一个例子：

from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div id="items">
  <ul class="list">
    <li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>
</div>
'''
doc = pq(html)
print(doc('#items .list li'))
print(type(doc('#items .list li')))

<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  
<class 'pyquery.pyquery.PyQuery'>

这里我们初始化了PyQuery对象以后传入一个CSS选择器：#items .list li它的意思是先选取id为items的节点，然后再选取其内部class为list的节点内部的所有li结点。

查找结点

使用find()方法，传入CSS选择器可以查找子节点：

from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div id="items">
  <ul class="list">
    <li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>
</div>
'''
doc = pq(html)
items = doc('.list')
print(items)
print(type(items))
lis = items.find('li')
print(lis)
print(type(lis))

<ul class="list">
    <li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>

<class 'pyquery.pyquery.PyQuery'>
<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  
<class 'pyquery.pyquery.PyQuery'>

这里首先选取class为list的节点，然后调用find()方法，传入css选择器，选取其内部的li节点，这时find()方法就会将所有符合条件的子节点选出来。find()方法会将所有符合条件的子孙节点找出来，如果要选则直接子节点就可以用children()方法：

from pyquery import PyQuery as pq#引入PyQuery对象
doc = pq(html)
items = doc('.list')
lis = items.children()
print(lis)
print(type(lis))

<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  
<class 'pyquery.pyquery.PyQuery'>

如果要所有子节点中符合条件的节点，比如想筛选出子节点中class为on的节点可以向children()方法传入CSS选择器.on：

lis = items.children('.on')
print(lis)

<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>

如果想要获取父节点可以用parents()方法：

from pyquery import PyQuery as pq#引入PyQuery对象
doc = pq(html)
items = doc('.list')
lis = items.parent()
print(lis)
print(type(lis))

<div id="items">
  <ul class="list">
    <li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>
</div>
<class 'pyquery.pyquery.PyQuery'>

这里的父节点时直接父节点，如果想要查找祖先节点可以用parents()方法。

如果想要筛选某个祖先节点的话可以用CSS选择器：

parent = items.parents('.wrap')

这里筛选出class为wrap的父节点。

使用siblings()方法可以筛选出兄弟节点：

items = doc('.list .on')
print(items.siblings())

<li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>

通过CSS选择器可以筛选出符合条件的兄弟节点：

print(items.siblings('.active'))

筛选出class为active的兄弟节点。

使用items()方法可以对其中的节点解析遍历：

lis = doc('li').items()
for li in lis:
    print(li)

解析网页的最终目的就是要提取其中的信息，下面分别来说一下如何来获取属性和文本：

attr()方法可以用来获取属性：

a = doc('.list .on a')
print(a.attr('href'))

https://www.douban.com

这里首先选中a标签，然后调用attr()方法获取href的属性值。

也可以调用attr的href属性：a.attr.href。

但要注意的是，当返回结果包含多个节点时attr()只会得到第一个节点的属性。但使用遍历就可以得到所有a节点的属性：

a = doc('a')
for item in a.items():
    print(item.attr('href'))

使用text()方法可以获取其中的文本：

a = doc('.list .on a')
print(a.text())

豆瓣

如果想要获取全部的html文本就可以使用html()方法。

Alphapeople

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
pyquery库的使用

pyquery的强大之处就在于它有强大的CSS选择器，要初始化一个pyquery对象，首先需要传入一个HTML文本，它的初始化方式有多种，比如传入字符串、URL、文件名等。字符串初始化：我们先来看一个例子：from pyquery import PyQuery as pq#引入PyQuery对象html = '''&lt;div class="global-nav-items"&...
复制链接

扫一扫