Pyquery库整理

最新推荐文章于 2022-04-06 14:24:31 发布

StarLord007

最新推荐文章于 2022-04-06 14:24:31 发布

阅读量134

点赞数

分类专栏：爬虫

本文链接：https://blog.csdn.net/q1694222672/article/details/82693592

版权

爬虫专栏收录该内容

19 篇文章 1 订阅

订阅专栏

初始化

from pyquery import PyQuery

html = '''
<div>
    <ul>
         <li class="item-0">first item</li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
     </ul>
 </div>
'''
ht = PyQuery(html)
print(ht('li'))     #直接传入CSS选择器

URL初始化和文档初始化我觉得不常用，还是请求解析分离开的好

基本CSS选择器

print(ht('#container .list .item-1'))

父子

print(ht.find('.item-1').children())
print(ht.find('.item-1').parent())

兄弟节点

print(ht('.item-1.active').siblings())
----------------------------------------------------------------------
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-0">first item</li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>

遍历

for i in ht('li').items():      #还是生成器对象 ，只能遍历，不能自取
    print(i)

获取信息

print(ht('.item-1.active a').attr('href'))          #获取属性
print(ht('.item-1.active a').text())                #获取内容
------------------------------------------------------------------------------------
link4.html
fourth item

print(ht('.item-1.active').html())      #获取除去本级标签的内容
--------------------------------------------------------------------------
<a href="link4.html">fourth item</a>

DOM操作

addClass、removeClass

li = doc('.item-0.active')
print(li)
li.removeClass('active')
print(li)
li.addClass('active')
print(li)

添加属性

li = doc('.item-0.active')
print(li)
li.attr('name', 'link')         #给li标签添加name属性
print(li)
li.css('font-size', '14px')     #添加CSS样式，貌似没什么用
print(li)

删除指定标签，这个例子经典

html = '''
<div class="wrap">
    Hello, World
    <p>This is a paragraph.</p>
 </div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
wrap = doc('.wrap')
print(wrap.text())
wrap.find('p').remove()
print(wrap.text())
----------------------------------------------------------
Hello, World This is a paragraph.
Hello, World

伪类选择器

html = '''
<div class="wrap">
    <div id="container">
        <ul class="list">
             <li class="item-0">first item</li>
             <li class="item-1"><a href="link2.html">second item</a></li>
             <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
             <li class="item-1 active"><a href="link4.html">fourth item</a></li>
             <li class="item-0"><a href="link5.html">fifth item</a></li>
         </ul>
     </div>
 </div>
'''
from pyquery import PyQuery
q = PyQuery(html)
print(q('li:first-child'))
print(q('li:last-child'))
print(q('li:nth-child(2)'))
print('--------------------------')
print(q('li:gt(2)'))        #大于第几个，从0开始计数
------------------------------------------------------------------------------------------------
<li class="item-0">first item</li>

<li class="item-0"><a href="link5.html">fifth item</a></li>

<li class="item-1"><a href="link2.html">second item</a></li>

--------------------------
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
             <li class="item-0"><a href="link5.html">fifth item</a></li>

还有

li = doc('li:nth-child(2n)')        #第偶数个
print(li)
li = doc('li:contains(second)')     #内容包含second的
print(li)

StarLord007

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pyquery库整理

初始化from pyquery import PyQueryhtml = '''&lt;div&gt; &lt;ul&gt; &lt;li class="item-0"&gt;first item&lt;/li&gt; &lt;li class="item-1"&gt;&lt;a href="link2.html&
复制链接

扫一扫