【PyQuery】PyQuery总结

最新推荐文章于 2024-10-03 09:02:12 发布

weixin_33884611

最新推荐文章于 2024-10-03 09:02:12 发布

阅读量114

点赞数

文章标签： python javascript ViewUI

pyquery库是jQuery的Python实现，可以用于解析HTML网页内容，

官方文档地址是：http://packages.python.org/pyquery/。

二、使用方法

1	`from` `pyquery` `import` `PyQuery as pq`

可加载一段HTML字符串，或一个HTML文件，或是一个url地址，例：

1

2

3

 
          d 
          = 
          pq( 
          "<html><title>hello</title></html>" 
          ) 
         
 
          d 
          = 
          pq(filename 
          = 
          path_to_html_file) 
         
 
          d 
          = 
          pq(url 
          = 
          'http://www.baidu.com' 
          ) 
         

注意：此处url似乎必须写全

html()和text() ——获取相应的HTML块或文本块，例：

1

2

3

 
          p 
          = 
          pq( 
          "<head><title>hello</title></head>" 
          ) 
         
 
          p( 
          'head' 
          ).html() 
          #返回<title>hello</title> 
         
 
          p( 
          'head' 
          ).text() 
          #返回hello 
         

根据HTML标签来获取元素，例：

1

2

3

4

 
          d 
          = 
          pq( 
          '<div><p>test 1</p><p>test 2</p></div>' 
          ) 
         
 
          d( 
          'p' 
          ) 
          #返回[<p>,<p>] 
         
 
          print 
          d( 
          'p' 
          ) 
          #返回<p>test 1</p><p>test 2</p> 
         
 
          print 
          d( 
          'p' 
          ).html() 
          #返回test 1 
         

注意：当获取到的元素不只一个时，html()、text()方法只返回首个元素的相应内容块

eq(index) ——根据给定的索引号得到指定元素

接上例，若想得到第二个p标签内的内容，则可以：

1	`print` `d(` `'p'` `).eq(` `1` `).html()` `#返回test 2`

filter() ——根据类名、id名得到指定元素，例：

1

2

3

 
          d 
          = 
          pq( 
          "<div><p id='1'>test 1</p><p class='2'>test 2</p></div>" 
          ) 
         
 
          d( 
          'p' 
          ). 
          filter 
          ( 
          '#1' 
          ) #返回[<p# 
          1 
          >] 
         
 
          d( 
          'p' 
          ). 
          filter 
          ( 
          '.2' 
          )  
          #返回[<p.2>] 
         

find() ——查找嵌套元素，例：

1

2

3

 
          d 
          = 
          pq( 
          "<div><p id='1'>test 1</p><p class='2'>test 2</p></div>" 
          ) 
         
 
          d( 
          'div' 
          ).find( 
          'p' 
          ) 
          #返回[<p#1>, <p.2>] 
         
 
          d( 
          'div' 
          ).find( 
          'p' 
          ).eq( 
          0 
          ) 
          #返回[<p#1>] 
         

直接根据类名、id名获取元素，例：

1

2

3

 
          d 
          = 
          pq( 
          "<div><p id='1'>test 1</p><p class='2'>test 2</p></div>" 
          ) 
         
 
          d( 
          '#1' 
          ).html()#返回test  
          1 
         
 
          d( 
          '.2' 
          ).html() 
          #返回test 2 
         

获取属性值，例：

1

2

3

 
          d 
          = 
          pq( 
          "<p id='my_id'><a href='http://hello.com'>hello</a></p>" 
          ) 
         
 
          d( 
          'a' 
          ).attr( 
          'href' 
          ) 
          #返回http://hello.com 
         
 
          d( 
          'p' 
          ).attr( 
          'id' 
          ) 
          #返回my_id 
         

修改属性值，例：

1	`d(` `'a'` `).attr(` `'href'` `,` `'http://baidu.com'` `)`

把href属性修改为了baidu

addClass(value) ——为元素添加类，例：

1 2	`d` `=` `pq(` `'<div></div>'` `)` `d.addClass(` `'my_class'` `)` `#返回[<div.my_class>]`

hasClass(name) #返回判断元素是否包含给定的类，例：

1 2	`d` `=` `pq(` `"<div class='my_class'></div>"` `)` `d.hasClass(` `'my_class'` `)` `#返回True`

children(selector=None) ——获取子元素，例：

1

2

3

 
          d 
          = 
          pq( 
          "<span><p id='1'>hello</p><p id='2'>world</p></span>" 
          ) 
         
 
          d.children() 
          #返回[<p#1>, <p#2>] 
         
 
          d.children( 
          '#2' 
          )#返回[<p# 
          2 
          >] 
         

parents(selector=None)——获取父元素，例：

1

2

3

4

 
          d 
          = 
          pq( 
          "<span><p id='1'>hello</p><p id='2'>world</p></span>" 
          ) 
         
 
          d( 
          'p' 
          ).parents() 
          #返回[<span>] 
         
 
          d( 
          '#1' 
          ).parents( 
          'span' 
          )#返回[<span>] 
         
 
          d( 
          '#1' 
          ).parents( 
          'p' 
          )#返回[] 
         

clone() ——返回一个节点的拷贝
empty() ——移除节点内容
nextAll(selector=None) ——返回后面全部的元素块，例：

1

2

3

 
          d 
          = 
          pq( 
          "<p id='1'>hello</p><p id='2'>world</p><img scr='' />" 
          ) 
         
 
          d( 
          'p:first' 
          ).nextAll() 
          #返回[<p#2>, <img>] 
         
 
          d( 
          'p:last' 
          ).nextAll() 
          #返回[<img>]