自学PyQuery扎记

PyQuery解析HTML页面范例

1.HTML简介:

推荐参见W3school HTML教程
直接上例子:

<html>
  <body>
  <h1>
      First Nesting              <!--这是第一层嵌套-->
      <h2>
          Second Nesting         <!--这是第二层嵌套-->
          <h3 id='1' class='c2'>
              Third Nesting      <!--这是第三层嵌套-->
          </h3>
      </h2>
  </h1>
  <a href="http://www.baidu.com">打开百度</a>  <!--标签是a,href是a的属性-->
  </body>
</html>

浏览器显示如下:
备注不显示

2.Pyquery简介

pyuqery是用来解析html网页的一个强有力的工具。
笔者以上面的html块为例使用一些pyquery常用的功能。

2.1导入html网页

from pyquery import PyQuery as pq
myhtml='''
<html>
  <body>
  <h1>
      First Nesting              <!--这是第一层嵌套-->
      <h2>
          Second Nesting         <!--这是第二层嵌套-->
          <h3 id='1' class='c2'>
              Third Nesting      <!--这是第三层嵌套-->
          </h3>
      </h2>
  </h1>
  <a href="http://www.baidu.com">打开百度</a>  <!--标签是a,href是a的属性-->
  </body>
</html>
'''
doc=pq(myhtml)

doc即为一个PyQuery对象了

2.2“索引”对象与方法

索引对象

doc(‘标签名’).html()#返回一个html块
doc(‘标签名’).text()#返回标签中的内容
doc(‘标签名’).attr(‘属性x’)#返回标签中x属性的值

索引方法

1.根据标签名直接索引
例:获取h2标签的内容:

>>doc(‘h2’).text()
>>’Second Nesting Third Nesting’

例:获取a标签中的连接地址:

>>doc(‘a’).attr(‘href’)
>>’http://www.baidu.com

2.嵌套索引(find方法)
例:我想获取h3标签中的内容,但是如果代码中还有别的地方也存在h3标签怎么办呢?我们可以采取嵌套索引的办法(find方法,可以嵌套许多次):

>>doc(‘h1’).find(‘h2’).find(‘h3’).text()
>>’Third Nesting’
>>doc(‘h2’).find(‘h3’).text()
>>’Third Nesting’

3.根据classs名,id名索引 filter(过滤器)方法
例:如果还有另外的h3,但是两个h3的class属性或id属性不同,就可以用指定的class或id获取h3的内容

>>doc(‘h3’).filter(‘#1’).text() # ‘#1’获取id=’1’的,名为h3的标签的text
>>’Third Nesting’
>>doc(‘#1’).text()#也可以直接缺省参数,寻找id=’1’的标签
>>’Third Nesting’
>>doc(‘h3’).filter(‘.c2’).text() # ‘.c2’获取class=’c2’的,名为h3的标签的text
>>’Third Nesting’
>>doc(‘.c2’).text()
>>’Third Nesting’

3.备注

在一个PyQuery对象中,以上文的doc为例,doc(‘h3’)返回的实际上是一个列表,列表中的每个元素都可以看做一个html块,假如html网页中有很多名为h3的标签,返回的是一个html块列表。列表中的每个元素后必须再使用PyQuery分析:

for eachitem in doc('h3'):
    i=pq(eachitem).text()
    print(i)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值