前面提到过关于某一页信息的如何爬取,但是我想爬取在下一页面的信息怎么爬取?
我不能通过打开下一页,然后获取下一页的网址在通过python爬取吧,这样就和爬取第一页没有什么区别了。有没有办法直接爬取下一页的链接然后get到你获取的url在爬取信息呢?
刚开始我想到用正则表达式来匹配各个页面的链接地址,但是可能我的idle版本问题或者别的问题(我也没有解决),总之不能通过。
于是我就想先爬取这一部分所有页面的所有链接,然后找出你要的页面链接,所以就用到了列表。
import requests
>>> from bs4 import BeautifulSoup
>>> url ='http://www.zbj.com/appdingzhikaifa/sq10054601k0.html'
>>> res=requests.get(url)
>>> res.encoding='utf-8'
>>> soup = BeautifulSoup(res.text, 'html.parser')
>>> for news in soup.select('.pagination'):
h2=news.select('li')
if len(h2)>0:
a=h2[13].select('a')[0]['href'] #因为