三、pyquery的使用
1、准备工作
pip3 install pyquery
2、初始化
2.1、字符串初始化
把HTML的内容当做参数,来初始化PyQuery对象。
html = '''
<div>
<ul>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold>third item</span></a></li>
<li class="item-0 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html) # 将HTML作参数传给pq,完成初始化
print(doc('li'))
2.2、URL初始化
指定PyQuery对象的参数为url。
from pyquery import PyQuery as pq
doc = pq(url='https://cuiqingcai.com')
print(doc('title'))
# 和以下代码功能相同
doc = pq(requests.get('https://cuiqingcai.com').text)
print(doc('title'))
2.3、文件初始化
from pyquery import PyQuery as pq
doc = pq(filename='demo.html')
print(doc('title'))
3、基本CSS选择器
html = '''
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold>third item</span></a></li>
<li class="item-0 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('#container .list li')) # 选取id为container的节点,再选取其内部class为list的节点内部的所有li节点
print(type(doc('#container .list li'))) #PyQuery类型
for item in doc('#container .list li').items(): # 遍历输出
print(item.text())
4、查找节点
4.1、子节点
查找子节点时,需要用到find方法,其参数是CSS选择器。
items = doc('.list') # 选取class为list的节点
print(type(items))
print(items)
lis = items.find('li') # 选取其内部的li节点
print(type(lis)) # PyQuery类型
print(lis)
如果要筛选所有子节点中符合条件的节点,可向children方法传入CSS选择器。
lis = items.children()
lis = items.children('.active')
4.2、父节点
可以用parent方法获取某个节点的父节点。
container = items.parent()
print(type(container)) # 类型还是PyQuery
print(container)
可以用parents方法获取某个节点的祖先节点。
parents = items.parents()
print(type(parents)) # 类型还是PyQuery
print(container)
可传入参数筛选祖先节点
parent = items.parents('.wrap')
print(parent)
4.3、兄弟节点
li = doc('.list .item-0.active')
print(li.siblings())
5、遍历节点
-
pyquery 的选择结果可能是多个节点,也可能是单个节点,类型都是PyQuery类型,并没有像Beautiful Soup那样返回列表。
-
如果结果是单个节点,既可以直接打印输出,也可以直接转成字符串
doc = pq(html) li = doc('.item-0.active') print(li) print(str(li))
-
如果是多个节点,就需要遍历获取了。需要调用items方法:
doc = pq(html) lis = doc('li').items() print(type(lis)) for li in lis: print(li,type(li))
5.1、获取信息
比较重要的信息有两类,一是属性、二是文本。
5.1.1、获取属性
提取到某个PyQuery类型的节点后,可以调用attr方法获取其属性。
doc = pq(html)
a = doc('.item-0.active a')
print(a,type(a))
print(a.attr('href')) / print(a.attr.href)
- 当返回结果包含多个节点时,调用attr方法,只会得到第一个节点的属性。
- 如果要获取所有的,则需要遍历。
from PyQuery import PyQuery as pq
doc = pq(html)
a = doc('a')
for item in a.items():
print(items.attr('href'))
5.1.2、获取文本
获取节点内部的文本,可以调用text方法:
from pyquery import PyQuery as pq
html = '''
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold>third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
doc = pq(html)
a = doc('.item-0.active a')
print(a)
print(a.text())
- 这里首先选中a节点,然后调用text方法,就可以获取其内部的文本信息。此时text方法会忽略节点内部包含的所有HTML,只返回纯文字内容。
- html方法会得到节点内部的HTML文本。
- 如果得到的是多个节点,并且想获取所有节点的内部HTML文本,就要遍历这些节点。而text方法不需要遍历即可得到,会对所有节点取文本之后合成一个字符串。
6、节点操作
pyquery库提供了一些列方法对节点进行动态修改,例如为某个节点添加一个class,移除某个节点等。
6.1、add_class和remove_class
html = '''
<li class="item-0 active"><a href="link3.html"><span class="bold>third item</span></a></li>
'''
doc = pq(html)
li = doc('.item-0.active')
li.remove_class('active')
li.add_class('active')
6.2、attr、text和html
doc = pq(html)
li = doc('.item-0.active')
li.attr('name','link')
li.text('changed item')
li.html('<span>changed item</span>')
- attr方法第一个参数为属性名,第二个参数为属性值。若值传入一个参数,表示获取这个属性值。
- 调用text方法和html方法改变li节点内部的内容。如果传入参数则表示赋值。
6.4、remove
html = '''
<div class="wrap">
Hello, World
<p>This is a paragraph.</p>
</div>
'''
doc = pq(html)
wrap = doc('.wrap')
wrap.find('p').remove()
print(wrap.text())
# 首先选中p节点,然后调用remove方法将其移除,这时wrap内部就只剩下Hello World这句话了,再利用text方法提取即可。
7、伪类选择器
li = doc('li:first-child') # 选择了第一个li节点
li = doc('li:last-child') # 选择了最后一个li节点
li = doc('li:nth-child(2)') # 第二个li节点
li = doc('li:gt(2)') # 第三个之后的li节点
li = doc('li:nth-child(2n)') # 偶数位置的li节点
li = doc('li:contains(second)') # 包含second文本的li节点
查看更多:http://pyquery.readthedocs.ip
四、parsel的使用
1、介绍
parsel库可以解析HTML和XML,并支持使用XPath和CSS选择器对内容进行提取和修改,同时还融合了正则表达式的提取功能。主流!!
2、准备工作
pip3 install parsel
3、初始化
html = '''
<div>
<ul>
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold>third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
'''
from parsel import Selector
selector = Selector(text=html) # 创建了一个Selector对象,传入text参数
items = selector.css('.item-0')
print(len(items),type(items),items)
items2 = selector.xpath('//li[contains(@class,"item-0")]')
print(len(items2),type(items2),items2)
- 两个结果都是SelectorList对象,这其实是一个可迭代对象
- 用len方法获取了结果的长度。
- 每个节点还是以Selector对象的形式返回,其中每个Selector对象的data属性里包含对应提取节点的HTML代码。
4、提取文本
对上述可迭代对象SelectorList,要获取所有li节点的文本内容,就需要遍历了。
items = selector.css('.item-0')
for item in items:
text = item.xpath('.//text()').get()
print(text)
result = selector.xpath('//li[contains(@class,"item-0")]//text()').get()
# 这里使用//li[contains(@class,"item-0")]//text()选取了所有class包含item-0的li节点的文本内容。这里get只提取了第一个Selector对象的结果
result = selector.xpath('//li[contains(@class,"item-0")]//text()').getall()
# 使用getall则会提取所有
# css写法:
result = selector.css('.item-0 *::text').getall
5、提取属性
# 例如提取第三个li节点的href属性
result = selector.css('.item-0.active a::attr(href)').get()
result = selector.xpath('//li[contains(@class,"item-0") and contains(@class,"active")]/a/@href').get()
- 对于CSS选择器,选取属性需要加**::attr(),并传入对应的属性名称**才可选取;
- 对于XPath,直接用**/@再加属性名称**即可选取。
6、正则提取
result = selector.css('.item-0').re('link.*')
# 先用css方法提取所有class包含item-0的节点,然后使用re方法传入了link.*,用来匹配包含link的所有结果。
- 当然,如果在调用css方法时,已经提取了进一步的结果,例如提取了节点文本值,那么re方法就只会针对节点文本进行提取:
result = selector.css('.item-0 *::text').re('.*item')
- 也可用re_first方法来提取第一个符合规则的结果:
result = selector.css('.item-0').re_first('<span class="bold>(.*?)</span>')