pyquery模块

最新推荐文章于 2021-12-23 01:22:46 发布

weixin_30527143

最新推荐文章于 2021-12-23 01:22:46 发布

阅读量62

点赞数

文章标签： javascript 爬虫 ViewUI

原文链接：http://www.cnblogs.com/ikct2017/p/9544668.html

版权

pyquery

这个模块基本是仿JQuery的形式，也支持CSS选择器语法，因此对于爬虫来说，避免了正则表达式的滥用。

from pyquery import PyQuery as pq

d = pq("<html></html>")

d = pq(url='http://google.com/')

d = pq(filename=path_to_html_file)

既可以通过HTML文档字串创建对象，也可以直接使用url（内部调用了urllib等模块，因此可以直接接发请求），又或者使用已下载的文件（对于缓存文件来说比较适用）。

由于使用缓存文件可能会报编码错误，因此可以修改源代码216行，增加encoding='utf-8'参数。

对象直接调用对应标签、class、id即可。

当要找出所有a标签的href属性时，可用如下方法。

import os

from pyquery import PyQuery as pq


e = pq(url='http://www.google.com')

gen = e('a').items()

for link in gen:
    print(link.attr.href)

其它的还有find、children、parent、parents、siblings方法，用法与JQuery一样。

转载于:https://www.cnblogs.com/ikct2017/p/9544668.html

关注