Python-超好用的css选择器——PyQuery

PyQuery同样是一个和爬虫相关的模块。主要用于获取html中的class和id。

1.安装PyQuery

pip install PyQuery

2.导入

因为名字太长于是用as改为pq。

from pyquery import PyQuery as pq

3.设定url

这次来爬博客主页的新闻

url = 'https://www.csdn.net/?spm=1018.2226.3001.4476'

4.爬取内容

html = requests.get(url)

5.用text方法转成文本

并且赋值给变量html_text

html_text = html.text

6.对PyQuery初始化

可以用字符串、url和文件初始化,但是url初始化更简便,不需要第四步爬取内容,直接从第三步跳到这里。

字符串初始化

pq_str = pq(html_text)

url初始化

pq_url = pq(url)

文件初始化,但是麻烦,要把html放在一个html文件里进行操作。

pq_file = pq(filename='文件名.html')

7.获取class或id内容

class获取,前面要加".",以字符串初始化为例。

pq_get = pq_str('.class名')

id获取,前面要加"#"

pq_get = pq_str('#id名')

8.打印结果

print(pq_get)

 但是我们会发现,打印出来的内容是以html形式输出的。

9.用text方法改进

我们可以用到.text方法,这样输出的都是文本。

print(pq_get.text)

效果如下:

CSDN首页上的也正好是这些。

附源码:

#导入
import requests
from pyquery import PyQuery as pq
#获取内容
url = 'https://www.csdn.net/?spm=1018.2226.3001.4476'
html = requests.get(url)
html_text = html.text
pq_str = pq(html_text)
pq_get = pq_str('.title')
print(pq_get.text())

 

总结

PyQuery适合用于一些复杂网页的class、id标签内容的获取,而且使用简便,非常适合入手。 记得点赞关注哦

  

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值