BeautifulSoup爬虫入门(二)——异步加载数据

异步加载又叫非阻塞加载,浏览器在下载执行js的同时,还会继续进行后续页面的处理。

常见的形式就是下拉页面出现新的内容

本次就是要爬取这些动态加载出的内容

以KnewOne网站上discover页为例,下拉会获取新的内容,检查网页源码时会发现,随着下拉会出现新的div,是Page的数值发生了改变

爬取代码如下:

import  requests
from  bs4 import BeautifulSoup
import time
url='https://knewone.com/discover?page=2'
def getPage(url):
        wb_data = requests.get(url)
        soup=BeautifulSoup(wb_data.text,'lxml')
        imgs = soup.select('a.cover-inner > img')#检查得到的图片的位置
        titles = soup.select('section.content > h4 > a')
        for img,title in zip(imgs,titles):
            data={
                'img':img.get('src'),
                'title':title.get('title')
            }
            print(data)

def get_more(start,end):#取连续下拉的几页内容
    for one in range(start,end):
        getPage(url+str(one))
        time.sleep(3)

get_more(2,5)



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值