爬虫入门之结构化数据类型XML的提取(PyQuery)

PyQuery

pyquery相当于jQuery的python实现,可以用于解析HTML网页等。它的语法与jQuery几乎完全相同,对于使用过jQuery的人来说很熟悉,也很好上手。

官方文档是英文的,但也比较容易阅读和理解。有一个中文的教程网站,这里也提供出来。

官方文档:https://pythonhosted.org/pyquery/index.html
中文教程:http://www.geoinformatics.cn/lab/pyquery/

安装

使用 pip 可以安装。

pip3 install pyquery

注意:由于 pyquery 依赖于 lxml ,要先安装 lxml ,否则会提示失败。

pip3 install lxml

使用

  • 初始化
    • 字符串初始化
    • URL初始化
    • 文件初始化 (对于本机文件)
# 演示数据
	html = '''
		<div id="container">
		    <ul class='list'>
		         <li class="item-0">first item</li>
		         <li class="item-1"><a href="link2.html">second item</a></li>
		         <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
		         <li class="item-1 active"><a href="link4.html">fourth item</a></li>
		         <li class="item-0"><a href="link5.html">fifth item</a></li>
		     </ul>
		 </div>

from pyquery import PyQuery as pq
doc = pyquery(html)  # 字符串初始化
doc = pyquery('http://www.baidu.com')  # URL初始化
doc = pyquery('文件路径')  # 文件初始化

print(doc('li'))  
"""
类似BeautifulSoup的tag选择器
与BeautifulSoup的区别,pyquery的该语句会匹配所有满足条件的内容
"""

# 以演示数据为例:
[<li.item-0>, <li.item-1>, <li.item-0.active>, <li.item-1.active>, <li.item-0>]
"""
该列表是由<class 'pyquery.pyquery.PyQuery'>类型构成的
doc也是<class 'pyquery.pyquery.PyQuery'>类型,即pyquery可以层层调用
"""
  • 基本的css选择器(id,class)
print(doc(' #container'))   #加‘ # ’id选择
print(doc('.item-0'))   #加‘ . ’类选择
print(doc('#container .list li'))  # 选择id为continer下,类名为list的标签内的li
print(doc('#continer .item-0'))  # 选择id为container的标签下的,类名为item-0的内容
print(doc('#continer .item-0.active')) # 选择id为container的标签下的,类名为item-0&acitve的内容
# 中间带有空格表示层级,不带空格表示并列

  • 查找元素
    • 子元素
    • 父元素
    • 兄弟元素
from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
print(type(items))
print(items)

# 子元素的查找
  # find方法
  lis = items.find('li')  # tag
  print(type(lis))
  print(lis)

  # children方法
  lis = items.children('.active')   # css选择器
  print(lis)
  # 两种方法,都可以使用css选择器和tag
  # 区别: find找下面所有满足条件的下级元素
  		# children找直接子元素里满足条件的内容
# 父元素查找
  # parent方法(得到上一级父元素)
  container = items.parent()
  print(type(container))
  print(container)

  # parents方法(得到所有祖先元素)
  parents = items.parents()
  print(type(parents ))
  print(container)
  # 类型均为<class 'pyquery.pyquery.PyQuery'>
  # 也可以使用css和tag进行筛选

# 兄弟查找
   # siblings方法
   doc = pq(html)
   li = doc('.list .item-0.active')   # css选择
   print(li.siblings())  # 类型<class 'pyquery.pyquery.PyQuery'>

  • 遍历
    当我们通过pyquery进行筛选时,我们可以获得一条结果,也可能获得多条,当结果不唯一时,我们会用到遍历
# 当然,我们可以使用最基础的for方法
doc = pq(html)
b = doc('li') # 类型<class 'pyquery.pyquery.PyQuery'>
for a in b:
	print(a)   # 类型<class 'lxml.etree._Element'>
	
# 我们可以借助pyquery提供的items方法
lis = doc('li').items()   # 类型<generator object PyQuery.items at 0x03568A50>
print(type(lis))
for li in lis:
    print(li) # 类型<class 'pyquery.pyquery.PyQuery'>
   
 ### 注意区分各个值的类型,根据需要进行选择

  • 获取信息
    • 获取属性
    • 获取文本
    • 获取HTML
from pyquery import PyQuery as pq
doc = pq(html)
a = doc('.item-0.active a')
print(a)

# 获取属性(2种方法)
print(a.attr('href'))
print(a.attr.href)

 # 获取文本
 print(a.text())

 # 获取HTML
 >>>print(li)
 <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li> 
 >>>print(li.html())     # 获取其包裹的HTML
 <a href="link3.html"><span class="bold">third item</span></a>

  • DOM操作
    对dom进行修改,增删

    • addClass、removeClass
    • attr、css
    • remove
      基本代码
  from pyquery import PyQuery as pq
  doc = pq(html)
  li = doc('.item-0.active')
  print(li)
  # 原始结果
  <li class="item-0">first item</li>
  <li class="item-1"><a href="link2.html">second item</a></li>
  <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
  <li class="item-1 active"><a href="link4.html">fourth item</a></li>
  <li class="item-0"><a href="link5.html">fifth item</a></li>

  • removeClass
 li.removeClass('active')  # 移除active类的属性
 print(li)
 # 结果
 <li class="item-0">first item</li>
 <li class="item-1"><a href="link2.html">second item</a></li>
 <li class="item-0"><a href="link3.html"><span class="bold">third item</span></a></li>
 <li class="item-1"><a href="link4.html">fourth item</a></li>
 <li class="item-0"><a href="link5.html">fifth item</a></li>

  • addClass
  li.addClass('active')
  print(li)
  <li class="item-0">first item</li>
  <li class="item-1"><a href="link2.html">second item</a></li>
  <li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
  <li class="item-1 active"><a href="link4.html">fourth item</a></li>
  <li class="item-0"><a href="link5.html">fifth item</a></li>

  • attr、css
li.attr('name', 'link')
# 若li无name属性,则添加name="link";若具有name属性,则修改其值为link
li.css('font-size', '14px')
# 添加样式,同attrs

  • remove
    可以用于筛选,排除,进而获取最后内容
html = '''
 <div class="wrap">
     Hello, World
     <p>This is a paragraph.</p>
  </div>
 '''
 from pyquery import PyQuery as pq
 doc = pq(html)
 wrap = doc('.wrap')
 print(wrap.text())
 wrap.find('p').remove()
 print(wrap.text())
 
 # 结果为:
 Hello, World This is a paragraph.
 Hello, World

  • 进阶(和前端css选择器完全一致,均可以使用)
# 举例 (伪类选择器)
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('li:first-child')
print(li)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值