python3爬虫(7)--使用pyquery的CSS选择器（Selectors）解析数据

最新推荐文章于 2023-01-25 14:13:44 发布

Jalen data analysis

最新推荐文章于 2023-01-25 14:13:44 发布

阅读量2.5k

点赞数 6

分类专栏： python数据采集文章标签： python3 pyquery CSS选择器 Selectors python爬虫

本文链接：https://blog.csdn.net/weixin_41685388/article/details/104076625

版权

本文介绍了Python3爬虫中使用PyQuery库解析HTML文档的方法，重点讲解了CSS选择器的基本使用、伪类选择器、遍历获取属性文本、节点查找以及节点操作等关键步骤，提供了一种类似jQuery的便捷解析体验。

摘要由CSDN通过智能技术生成

在利用python进行就网页数据采集时，为们往往通过urllib或requests发送请求，返回的数据结构是json格式的，我们就使用json解析；其他格式的网页数据可以采用XPath(lxml)解析数据或者使用Beautiful Soup解析数据或者使用pyquery解析数据等很多方法。其中，pyquery同样是一个强大的网页解析工具，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便。

1、准备及初始化

2、使用pyquery的CSS选择器（Selectors）基本使用

3、伪类选择器

4、遍历、获取信息（属性、文本）

5、子（孙）节点，父（祖）节点查找、兄弟节点的查找

6、节点操作

1、准备及初始化

# pip install pyquery #安装
from pyquery import PyQuery as pq #引入
import requests
html = '''
    <div>
        <p class="pidg" id="name">nba</p>
        <td class="nobr player desktop">
            <a href="bucks" class="ng-binding" target="_parent" 
            href1="/teams/#!/bucks"><!-- ngIf: row.clinched -->密尔沃基&nbsp;雄鹿<b>nba</b></a>
        </td>
        <tr data-ng-repeat="(i, row) in page" index="0" class="ng-scope">
            <td class="nobr center bold ng-binding_0" href="href01">6</td>
            <td class="nobr center bold desktop ng-binding">18&nbsp;-&nbsp;4</td>
            <td class="nobr center bold desktop ng-binding">胜 6</td>
            <td class="nobr center bold desktop ng-binding">119.5</td>
        </tr>
    </div>
    '''
'''*************1、初始化***********************'''
doc=pq(html)# 初始化：它的初始化方式有多种，比如直接传入字符串，传入URL，传人文件名，等等。
# doc=pq(requests.get('https://blog.csdn.net/weixin_41685388/category_9426224.html').text)
# doc=doc=pq(filename='demo.html')

2、使用pyquery的CSS选择器（Selectors）基本使用

CSS选择器	简易实例	说明[doc=pq(html) #html来自第1点：准备及初始化]
*	*	选择所有的元素：doc('*')
element	p	选择所有的<p>元素：doc('p')
.class	.pidg	选择所有class＝'pidg' 的元素：doc('.pidg')
.class	p.pidg	选择 class＝'