xpath和pyquery

最新推荐文章于 2024-03-14 12:44:56 发布

ttts27

最新推荐文章于 2024-03-14 12:44:56 发布

阅读量584

点赞数

分类专栏： spider 文章标签： html xpath

本文链接：https://blog.csdn.net/ttts27/article/details/115382300

版权

本文详细介绍了PyQuery和XPath在解析HTML时的应用，包括PyQuery的创建、获取标签内容和属性，以及XPath的路径解析、谓词筛选、通配符使用等，帮助读者深入理解这两种强大的HTML解析工具。

摘要由CSDN通过智能技术生成

今日总结

一、pyquery

pyquery是通过css选择器来获取网页中的标签

1. 获取数据(只能是html界面)

from pyquery import PyQuery
with open('files/data.html', encoding='utf-8') as f:
    content = f.read()

2. 创建PyQuery对象

html = PyQuery(content)

3. 获取标签

直接在整个页面中按照css选择器获取指定标签

PyQuery对象(css选择器) - 获取指定标签

p = html('div>p')
print(p)

lis = html('li')
print(lis)

f1 = html('#f1')
print(f1)

ps = html('p')
print(ps)

# 在指定标签中按照css选择器获取指定标签
div1 = html('#div1')
p = div1('p')
print(p, type(p))

divs = html('.c1')
print(divs)
ps = divs('p')
print(ps)

4. 获取标签的内容和属性

PyQuery对象.text() - 获取双标签的文本内容
PyQuery对象.val() - 获取标签的value属性
PyQuery对象.attr(属性名) - 获取标签指定的属性

result = html('#p1').text()
print(result)    # 我是段落2

print('=================')
# 直接获取所有的p标签的文本内容
result = html('p').text()
print(result, type(result))

# 单独获取所有p标签的文本内容
ps = html('p')
for x in ps:
    print('x:', PyQuery(x).text()