python3 爬虫,摆脱手动for循环获取网页下一页,让程序自动执行请求网页下一页。

其中导入的包是我自己写的工具,代码中需要的库是 requets ,bs4 即可 :

# encoding:utf-8
from web_tools.SpiderTools.webspider_setting import *
import requests
headers = {
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.9',
'Connection':'keep-alive',
'Cookie':'SSCSum=2; U_TRS1=000000aa.bbe6cf5c.5ffdeb63.dfe22b1b; U_TRS2=000000aa.bbf0cf5c.5ffdeb63.31ef8546; SSCSum=1; UOR=,open.sina.com.cn,; SINAGLOBAL=223.149.68.170_1610476387.876180; Apache=223.149.68.170_1610476387.876182; lxlrttp=1578733570; ULV=1610476403038:2:2:2:223.149.68.170_1610476387.876182:1610476389766; vjuids=-242e60c0c.176f7dfb9e2.0.7bd0489f7a122; vjlast=1610476403',
'Host':'open.sina.com.cn',
'Upgrade-Insecure-Requests':'1',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',


}


def index(urls):
	# 正常的请求
    html= get_tools.html_get(urls,headers=headers)
    vido = html.find_all('div',class_="vido")
    # 赛选数据
    for v in vido:
        title = v.find('h2',class_="tit fbluel").text
        video_address = v.find('h2',class_="tit fbluel").find('a')['href']
        video_img= v.find('div',class_="pic").find('img')['src']
        teachers = v.find('a',class_="fblue").text
        introdutions = v.find('p',class_="intro").text
        prices = ""
        video_time = ""

#保存数据到mysql 中        
        save_tools.create_mysql('open.sina.com.cn',title,video_img,video_time,prices,introdutions,teachers,video_address) # 把数据保存到mysql 中
	#赛选出本页的下一页的超链接。
    nxet_page = html.find_all('p',class_="page")[0].find_all('a') # 赛选出下一页URL
    for np in nxet_page:
        if "下一页" in str(np):
            next_url = np['href']
            #自循环调用
            index(next_url)
        else:
            pass

if __name__ == '__main__':
    for i in range(2,15): 这里是分类URL
        url = 'http://open.sina.com.cn/discipline/id_{}/page_1/mn_0/'.format(i)
        index(url)

如果想调用自循环下一页URL,就必须要把第一次获取的URL写在全局变量,切变量名切勿与函数类一样。

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
要实现python爬虫自动进入下一页获取图片路径,可以使用以下步骤: 1. 导入必要的库 首先,需要导入requests库用于发送HTTP请求,并导入BeautifulSoup库用于解析网页内容。 2. 发送请求获取网页内容 使用requests库发送请求获取要爬取的网页的内容。可以使用get方法,传入网页的URL作为参数,然后将返回的内容保存在一个变量中。 3. 解析网页内容 使用BeautifulSoup库解析网页内容,将内容转换为BeautifulSoup对象。可以使用lxml作为解析器,通过将网页内容和解析器作为参数传递给BeautifulSoup对象的构造函数来完成解析。 4. 提取图片路径 使用BeautifulSoup对象提取网页中的图片路径。可以使用find_all方法,传入合适的标签和属性作为参数来定位到所有的图片标签,然后使用attrs属性获取图片路径。 5. 处理下一页 判断是否存在下一页的链接,并获取一页的URL。可以通过分析网页结构,找到下一页的链接所在的标签和属性,并使用BeautifulSoup对象的find方法来获取该链接。 6. 循环操作 将上述步骤放入一个循环中,每次循环中先发送请求获取网页内容,然后解析网页内容,提取图片路径,并处理下一页。直到没有下一页为止,即循环结束。 7. 保存图片路径 在每次提取图片路径后,将路径保存到一个列表或文件中,以便后续使用。 8. 下载图片 可以使用requests库中的get方法,传入图片路径作为参数,然后将返回的内容保存到本地文件中。 通过以上步骤,就可以实现python爬虫自动进入下一页获取图片路径的功能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

宋哈哈呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值