通过Python对各个页面链接的有效爬取

前面提到过关于某一页信息的如何爬取,但是我想爬取在下一页面的信息怎么爬取?

我不能通过打开下一页,然后获取下一页的网址在通过python爬取吧,这样就和爬取第一页没有什么区别了。有没有办法直接爬取下一页的链接然后get到你获取的url在爬取信息呢?

刚开始我想到用正则表达式来匹配各个页面的链接地址,但是可能我的idle版本问题或者别的问题(我也没有解决),总之不能通过。

于是我就想先爬取这一部分所有页面的所有链接,然后找出你要的页面链接,所以就用到了列表。

import requests
>>> from bs4 import BeautifulSoup
>>> url ='http://www.zbj.com/appdingzhikaifa/sq10054601k0.html'
>>> res=requests.get(url)
>>> res.encoding='utf-8'
>>> soup = BeautifulSoup(res.text, 'html.parser')
>>> for news in soup.select('.pagination'):
h2=news.select('li')
if len(h2)>0:
a=h2[13].select('a')[0]['href']                           #因为

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值