目录
今日总结
一、pyquery
pyquery是通过css选择器来获取网页中的标签
1. 获取数据(只能是html界面)
from pyquery import PyQuery
with open('files/data.html', encoding='utf-8') as f:
content = f.read()
2. 创建PyQuery对象
html = PyQuery(content)
3. 获取标签
直接在整个页面中按照css选择器获取指定标签
- PyQuery对象(css选择器) - 获取指定标签
p = html('div>p')
print(p)
lis = html('li')
print(lis)
f1 = html('#f1')
print(f1)
ps = html('p')
print(ps)
# 在指定标签中按照css选择器获取指定标签
div1 = html('#div1')
p = div1('p')
print(p, type(p))
divs = html('.c1')
print(divs)
ps = divs('p')
print(ps)
4. 获取标签的内容和属性
- PyQuery对象.text() - 获取双标签的文本内容
- PyQuery对象.val() - 获取标签的value属性
- PyQuery对象.attr(属性名) - 获取标签指定的属性
result = html('#p1').text()
print(result) # 我是段落2
print('=================')
# 直接获取所有的p标签的文本内容
result = html('p').text()
print(result, type(result))
# 单独获取所有p标签的文本内容
ps = html('p')
for x in ps:
print('x:', PyQuery(x).text()