xpath和pyquery

本文详细介绍了PyQuery和XPath在解析HTML时的应用,包括PyQuery的创建、获取标签内容和属性,以及XPath的路径解析、谓词筛选、通配符使用等,帮助读者深入理解这两种强大的HTML解析工具。
摘要由CSDN通过智能技术生成

今日总结

一、pyquery

pyquery是通过css选择器来获取网页中的标签

1. 获取数据(只能是html界面)
from pyquery import PyQuery
with open('files/data.html', encoding='utf-8') as f:
    content = f.read()

2. 创建PyQuery对象
html = PyQuery(content)
3. 获取标签

直接在整个页面中按照css选择器获取指定标签

  • PyQuery对象(css选择器) - 获取指定标签
p = html('div>p')
print(p)

lis = html('li')
print(lis)

f1 = html('#f1')
print(f1)

ps = html('p')
print(ps)

# 在指定标签中按照css选择器获取指定标签
div1 = html('#div1')
p = div1('p')
print(p, type(p))

divs = html('.c1')
print(divs)
ps = divs('p')
print(ps)

4. 获取标签的内容和属性
  • PyQuery对象.text() - 获取双标签的文本内容
  • PyQuery对象.val() - 获取标签的value属性
  • PyQuery对象.attr(属性名) - 获取标签指定的属性
result = html('#p1').text()
print(result)    # 我是段落2

print('=================')
# 直接获取所有的p标签的文本内容
result = html('p').text()
print(result, type(result))

# 单独获取所有p标签的文本内容
ps = html('p')
for x in ps:
    print('x:', PyQuery(x).text()
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值