python3爬虫(7)--使用pyquery的CSS选择器(Selectors)解析数据

本文介绍了Python3爬虫中使用PyQuery库解析HTML文档的方法,重点讲解了CSS选择器的基本使用、伪类选择器、遍历获取属性文本、节点查找以及节点操作等关键步骤,提供了一种类似jQuery的便捷解析体验。
摘要由CSDN通过智能技术生成

在利用python进行就网页数据采集时,为们往往通过urllibrequests发送请求,返回的数据结构是json格式的,我们就使用json解析;其他格式的网页数据可以采用XPath(lxml)解析数据或者使用Beautiful Soup解析数据或者使用pyquery解析数据等很多方法。其中,pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便。

目录

1、准备及初始化

2、使用pyquery的CSS选择器(Selectors)基本使用

3、伪类选择器

4、遍历、获取信息(属性、文本)

5、子(孙)节点,父(祖)节点查找、兄弟节点的查找

6、节点操作


1、准备及初始化

# pip install pyquery #安装
from pyquery import PyQuery as pq #引入
import requests
html = '''
    <div>
        <p class="pidg" id="name">nba</p>
        <td class="nobr player desktop">
            <a href="bucks" class="ng-binding" target="_parent" 
            href1="/teams/#!/bucks"><!-- ngIf: row.clinched -->密尔沃基&nbsp;雄鹿<b>nba</b></a>
        </td>
        <tr data-ng-repeat="(i, row) in page" index="0" class="ng-scope">
            <td class="nobr center bold ng-binding_0" href="href01">6</td>
            <td class="nobr center bold desktop ng-binding">18&nbsp;-&nbsp;4</td>
            <td class="nobr center bold desktop ng-binding">胜 6</td>
            <td class="nobr center bold desktop ng-binding">119.5</td>
        </tr>
    </div>
    '''
'''*************1、初始化***********************'''
doc=pq(html)# 初始化:它的初始化方式有多种,比如直接传入字符串,传入URL,传人文件名,等等。
# doc=pq(requests.get('https://blog.csdn.net/weixin_41685388/category_9426224.html').text)
# doc=doc=pq(filename='demo.html')

2、使用pyquery的CSS选择器(Selectors)基本使用

CSS选择器   简易实例 说明[doc=pq(html) #html来自第1点:准备及初始化]
*        * 选择所有的元素:doc('*')
element   选择所有的<p>元素:doc('p')
.class    .pidg 选择所有class='pidg' 的元素:doc('.pidg')
.class p.pidg 选择 class='
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值