在利用python进行就网页数据采集时,为们往往通过urllib或requests发送请求,返回的数据结构是json格式的,我们就使用json解析;其他格式的网页数据可以采用XPath(lxml)解析数据或者使用Beautiful Soup解析数据或者使用pyquery解析数据等很多方法。其中,pyquery同样是一个强大的网页解析工具,它提供了和jQuery类似的语法来解析HTML文档,支持CSS选择器,使用非常方便。
目录
2、使用pyquery的CSS选择器(Selectors)基本使用
1、准备及初始化
# pip install pyquery #安装
from pyquery import PyQuery as pq #引入
import requests
html = '''
<div>
<p class="pidg" id="name">nba</p>
<td class="nobr player desktop">
<a href="bucks" class="ng-binding" target="_parent"
href1="/teams/#!/bucks"><!-- ngIf: row.clinched -->密尔沃基 雄鹿<b>nba</b></a>
</td>
<tr data-ng-repeat="(i, row) in page" index="0" class="ng-scope">
<td class="nobr center bold ng-binding_0" href="href01">6</td>
<td class="nobr center bold desktop ng-binding">18 - 4</td>
<td class="nobr center bold desktop ng-binding">胜 6</td>
<td class="nobr center bold desktop ng-binding">119.5</td>
</tr>
</div>
'''
'''*************1、初始化***********************'''
doc=pq(html)# 初始化:它的初始化方式有多种,比如直接传入字符串,传入URL,传人文件名,等等。
# doc=pq(requests.get('https://blog.csdn.net/weixin_41685388/category_9426224.html').text)
# doc=doc=pq(filename='demo.html')
2、使用pyquery的CSS选择器(Selectors)基本使用
CSS选择器 | 简易实例 | 说明[doc=pq(html) #html来自第1点:准备及初始化] |
---|---|---|
* | * | 选择所有的元素:doc('*') |
element | p | 选择所有的<p>元素:doc('p') |
.class | .pidg | 选择所有class='pidg' 的元素:doc('.pidg') |
.class | p.pidg | 选择 class=' |