PyQuery(基于lxml模块) Python四个爬虫解析方法之一
pip install pyquery 安装
html = """
<html lang="en">
<head>
简单好用的
<title>PyQuery</title>
</head>
<body>
<ul id="container">
Hello World!
<li class="object-1">Python</li>
<li class="object-2">大法</li>
<li class="object-3">好</li>
</ul>
</body>
</html>
"""
相当于BeautifulSoup库的初识化方法,将html转化为BeautifulSoup对象
初识化方法,将html转化为PyQuery对象
1.1 将字符串初始化
from pyquery import PyQuery as pq
#初始化为PyQuery对象
doc = pq(html)
print(type(doc))
print(doc)
1.2 将html文件初始化
#filename参数为html文件路径
test_html = pq(filename = 'test.html')
print(type(test_html))
print(test_html)
1.3 对网址响应进行初始化
response = pq(url = 'https://www.baidu.com')
print(type(response))
print(response)
二、常用的CCS选择器
打印id为container的标签(#)
print(doc('#container'))
print(