BeautifulSoup爬虫入门（二）——异步加载数据

最新推荐文章于 2023-12-06 18:33:17 发布

BeforeEasy

最新推荐文章于 2023-12-06 18:33:17 发布

阅读量1.2k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/BeforeEasy/article/details/79229972

版权

python 专栏收录该内容

13 篇文章 1 订阅

订阅专栏

异步加载又叫非阻塞加载，浏览器在下载执行js的同时，还会继续进行后续页面的处理。

常见的形式就是下拉页面出现新的内容

本次就是要爬取这些动态加载出的内容

以KnewOne网站上discover页为例，下拉会获取新的内容，检查网页源码时会发现，随着下拉会出现新的div，是Page的数值发生了改变

爬取代码如下：

import  requests
from  bs4 import BeautifulSoup
import time
url='https://knewone.com/discover?page=2'
def getPage(url):
        wb_data = requests.get(url)
        soup=BeautifulSoup(wb_data.text,'lxml')
        imgs = soup.select('a.cover-inner > img')#检查得到的图片的位置
        titles = soup.select('section.content > h4 > a')
        for img,title in zip(imgs,titles):
            data={
                'img':img.get('src'),
                'title':title.get('title')
            }
            print(data)

def get_more(start,end):#取连续下拉的几页内容
    for one in range(start,end):
        getPage(url+str(one))
        time.sleep(3)

get_more(2,5)

BeforeEasy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
BeautifulSoup爬虫入门（二）——异步加载数据

异步加载又叫非阻塞加载，浏览器在下载执行js的同时，还会继续进行后续页面的处理。常见的形式就是下拉页面出现新的内容本次就是要爬取这些动态加载出的内容以KnewOne网站上discover页为例，下拉会获取新的内容，检查网页源码时会发现，随着下拉会出现新的div，是Page的数值发生了改变爬取代码如下：import requestsfrom bs4 import Bea
复制链接

扫一扫

专栏目录